DE112020002288T5

DE112020002288T5 - Verfahren, System und Vorrichtung zum Verstehen und Generieren menschlicher Konversations-Cues

Info

Publication number: DE112020002288T5
Application number: DE112020002288.9T
Authority: DE
Inventors: Harry Bratt; Kristin Precoda; Dimitra Vergyri
Original assignee: SRI International Inc; Stanford Research Institute
Current assignee: SRI International Inc
Priority date: 2019-05-09
Filing date: 2020-05-07
Publication date: 2022-02-03
Also published as: JP2022531645A; US20220115001A1; WO2020227557A1

Abstract

Ein voicebasierter digitaler Assistent (VDA) benutzt ein Konversationsintelligenz(KI)-Managermodul mit einer regelbasierten Engine zu Konversationsintelligenz zur Verarbeitung von Informationen aus einem oder mehreren Modulen zum Vornehmen von Bestimmungen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren der menschlichen Konversations-Cues, einschließlich zumindest Verstehen und Generieren einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation, für zumindest eines von Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA. Das KI-Managermodul benutzt die regelbasierte Engine zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers, um die Backchannel-Äußerung zu generieren, um beliebige i) eines Verstehens, ii) einer Korrektur, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss während eines Zeitrahmens vermittelt werden, wenn der Benutzer weiterhin das Rederecht hat, zu signalisieren.

Description

AUFNAHME DURCH BEZUGNAHME
Diese Anmeldung beansprucht Priorität unter 35 USC 119 der vorläufigen US-Patentanmeldung SN 62/845,604 , eingereicht am 9. Mai 2019, mit dem Titel Verfahren zum Verstehen und Generieren menschenähnlicher Konversations-Cues'. Alle in dieser Spezifikation erwähnten Veröffentlichungen sind hierin durch Bezugnahme in ihrer Gesamtheit in demselben Ausmaß aufgenommen, als ob jede individuelle Veröffentlichung spezifisch und individuell bezeichnet worden wäre, durch Bezugnahme aufgenommen zu sein.
HINTERGRUND
Einige aktuelle voicebasierte digitale Assistenten (VDAs) sind eingeschränkt, weil ihr Konversationsmodell allzu sehr vereinfacht ist und als sehr roboterhaft herüberkommt, wenn ein Dialog mit dem VDA geführt wird. Während Menschen über die Worte hinausgehende Konversations-Cues benutzen, um Vertrauen und Verstehen aufzubauen, während komplexe Konversationen reibungslos navigiert werden, ignorieren die meisten VDAs gegenwärtig Cues wie z. B. die Äußerung „Uhmm“, die benutzt werden, um den eigentlichen Dialog zu koordinieren (wichtig bei längeren Interaktionen), ein „Grounding“ der Konversation vorzunehmen, um eine gemeinsame Grundlage festzustellen, Vertrauen durch koordinierte Wissensstände zu wahren, sich abzuwechseln, Kommunikationsfehler zu reparieren (und Vertrauen aufzubauen) und Übergänge zu signalisieren. Die aktuellen eingeschränkten VDA-Modelle bringen Benutzer dazu, ihr Verhalten anzupassen oder einzuschränken, und stellen oft eine unbefriedigende Erfahrung dar. Open-Domain-VDAs werden von Konzernen wie z. B. Google, Amazon, Apple und Microsoft gewerblich angeboten. Einige der verfügbaren gewerblichen Systeme erfordern eine strikt abwechselnde („Turn-by-Turn“) Interaktion, die von Dingen wie einem festen Timer - d. h. Warten auf eine Antwort - gesteuert werden, was in einigen Fällen langsamer als notwendig sein und Fehler machen kann, d. h. es wird inkorrekt entschieden, wann eine Antwort vollständig oder unvollständig ist. Einige Systeme können keine angemessenen prosodischen Cues ausgeben, und einige Systeme können prosodische Cues nicht bei Benutzereingaben nutzen. Einige VDAs erfordern möglicherweise visuelle Interaktion zur Bestätigung, dass die Informationen erfolgreich ausgetauscht wurden, wodurch die Situationen, in denen ein VDA benutzt werden kann, limitiert werden. Einige gewerbliche VDAs haben Dialog-APIs, die zumeist mit Text arbeiten, wobei keine prosodischen Informationen verfügbar sind. Gegenwärtig sind einige geläufige Anforderungen an einen VDA sehr simpel (Musik spielen, Alarme verwalten, sich über das Wetter informieren oder Telefonnummern anrufen, „lustige Fragen“, Voicemail abspielen usw.)
KURZFASSUNG
Eine Maschine, ein Prozess und ein System diskutieren einen voicebasierten digitalen Assistenten (VDA), der multiple Module zum Verstehen und Generieren menschlicher Konversations-Cues enthält.
Ein Konversationsintelligenz(KI)-Managermodul hat eine regelbasierte Engine zu Konversationsintelligenz für den VDA. Das KI-Managermodul hat einen oder mehrere Eingänge zur Entgegennahme von Informationen aus einem oder mehreren anderen Modulen, um Bestimmungen vorzunehmen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren der menschlichen Konversations-Cues, einschließlich einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation, für zumindest eines von Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA. Das KI-Managermodul ist konfiguriert zum Benutzen der regelbasierten Engine zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers, um die Backchannel-Äußerung zu generieren, um beliebige i) eines Verstehens, ii) einer Korrektur, iii) einer Bestätigung, und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss während eines Zeitrahmens vermittelt werden, wenn der Benutzer weiterhin das Rederecht hat, zu signalisieren. Beispielsweise kann der Benutzer einen oder mehrere Sätze äußern ohne eine Anzeige, dass der Benutzer das Rederecht aufgibt; und dennoch äußert das System möglicherweise lediglich den kurzen Backchannel ,Uh Huh', was dem Benutzer erlaubt, weiterhin das Rederecht zu haben, und zusätzlichen Input des Benutzers ermutigt, ohne den natürlichen, vom Benutzer stammenden Konversationsfluss zu unterbrechen.
Figurenliste

1 veranschaulicht ein Blockdiagramm einer Ausführungsform einer Konversationsengagement-Mikroserviceplattform, die ein Konversationsintelligenz(KI)-Managermodul enthält, das eine regelbasierte Engine zu Konversationsintelligenz für den Dialogfluss zwischen einem Benutzer und einem VDA aufweist.
2A-2C veranschaulichen ein Flussdiagramm einer Ausführungsform einer Konversationsengagement-Mikroserviceplattform, die ein Konversationsintelligenz(KI)-Managermodul enthält, das eine regelbasierte Engine zu Konversationsintelligenz für den Dialogfluss zwischen einem Benutzer und einem VDA aufweist.
3 veranschaulicht ein Blockdiagramm einer Reihe von elektronischen Systemen und Geräten: diese kommunizieren miteinander in einer Netzwerkumgebung gemäß einer Ausführungsform der Konversationsengagement-Mikroserviceplattform, die ein eine regelbasierte Engine aufweisendes KI-Managermodul enthält.
4 veranschaulicht ein Blockdiagramm einer Ausführungsform einer oder mehrerer Rechenvorrichtungen, die Bestandteil des Konversationsassistenten sein können, für eine Ausführungsform des hierin diskutierten aktuellen Designs.

Obwohl das Design verschiedenen Modifikationen, Äquivalenten und alternativen Formen unterliegt, wurden spezifische Ausführungsformen davon als Beispiel in den Zeichnungen dargestellt und werden jetzt ausführlich beschrieben. Es versteht sich, dass das Design nicht auf die besonderen offengelegten Ausführungsformen beschränkt ist, sondern - im Gegenteil - die Absicht darin besteht, sämtliche die spezifischen Ausführungsformen benutzenden Modifikationen, Äquivalente und alternativen Formen abzudecken.
AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung können zahlreiche spezifische Einzelheiten dargelegt sein, u. a. Beispiele für spezifische Datensignale, benannte Komponenten, Anzahl von Speichern, usw., um ein gründliches Verständnis des vorliegenden Designs zu vermitteln. Für einen Durchschnittsfachmann auf dem Gebiet ist es jedoch offensichtlich, dass das vorliegende Design ohne diese spezifischen Einzelheiten praktiziert werden kann. In anderen Fällen wurden weithin bekannte Komponenten oder Verfahren nicht ausführlich, sondern vielmehr in einem Blockdiagramm beschrieben, um eine unnötige Verunklarung des vorliegenden Designs zu vermeiden. Ferner können spezifische numerische Verweise wie z. B. der erste Speicher erfolgen. Die spezifischen numerischen Verweise sollten jedoch nicht als tatsächliche fortlaufende Reihenfolge, sondern vielmehr dahingehend interpretiert werden, dass sich der erste Speicher von einem zweiten Speicher unterscheidet. Somit können die dargelegten spezifischen Einzelheiten rein exemplarisch sein. Diese Offenbarung beschreibt erfinderische Konzepte mit Bezug auf spezifische Beispiele. Die Absicht besteht jedoch in der Abdeckung aller Modifikationen, Äquivalente und Alternativen der erfinderischen Konzepte, die mit dieser Offenbarung übereinstimmen. Für einen Durchschnittsfachmann auf dem Gebiet ist es jedoch offensichtlich, dass der vorliegende Ansatz ohne diese spezifischen Einzelheiten praktiziert werden kann. Somit sind die dargelegten spezifischen Einzelheiten rein exemplarisch und sollen nicht begrenzen, was derzeit offenbart ist. Selbst wenn von den spezifischen Einzelheiten abgewichen wird, können sie weiterhin als im Geist und Umfang des vorliegenden Designs liegend angesehen werden. Der Begriff „gekoppelt“ ist so definiert, dass er entweder direkt mit der Komponente oder indirekt mit der Komponente durch eine oder mehrere andere Komponenten verbunden bedeutet. Die in einer Ausführungsform implementierten Merkmale können in einer anderen Ausführungsform implementiert sein, falls logisch möglich.
Im Allgemeinen werden eine Maschine, ein Prozess und ein System diskutiert, die ein Konversationsintelligenz(KI)-Managermodul mit einer regelbasierten Engine zu Konversationsintelligenz benutzen, um Informationen aus einem oder mehreren Modulen zu verarbeiten, um Bestimmungen vorzunehmen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren der menschlichen Konversations-Cues, einschließlich einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation, für zumindest eines von Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und der das KI-Managermodul hostenden Plattform. Das KI-Managermodul hat die Möglichkeit der Benutzung der regelbasierten Engine zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers, um die Backchannel-Äußerung zu generieren, um beliebige i) eines Verstehens, ii) einer Korrektur, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss während eines Zeitrahmens vermittelt werden, wenn der Benutzer weiterhin das Rederecht hat, zu signalisieren.
Terminologie
Eine Rededisfluenz kann eine beliebige von verschiedenen Unterbrechungen, Unregelmäßigkeiten, Wiederholungen oder nicht-lexikalischen Vokabeln sein, die im Fluss einer ansonsten flüssigen Rede vorkommen. Eine Rededisfluenz kann auch eine nicht-relevante Antwort eines Benutzers wie z. B. äh, ich, ich äh, ich na ... usw. sein, der nicht darauf vorbereitet war, auf eine Frage oder sonstige Aussage, die zu einer Antwort des Benutzers auffordert, hin zu antworten und/oder zu erwidern.
Prosodie kann mit denjenigen Elementen der Rede befasst sein, die keine individuellen phonetischen Segmente (Vokale und Konsonanten) sind, sondern Eigenschaften von Silben und größeren Spracheinheiten sind, einschließlich linguistischer Funktionen wie Intonation, Amplitude, Ton, Betonung, Timing und Rhythmus.
Ein Rederecht kann den Sprecherwechsel im Redefluss, und wer während dieses Turnus gegenwärtig das Recht zum Sprechen hat (d. h. „dran“ ist), betreffen. Das Rederecht soll derjenigen Person gehören, die mit dem Sprechen an der Reihe ist.
Eine Backchannel-Äußerung kann in der Regel eine kurze Äußerung sein, die in den beiden, während einer Konversation gleichzeitig arbeitenden Hauptkommunikationskanälen benutzt wird. Alle Backchannels übermitteln eine Quittierung. Der vorherrschende Kanal ist derjenige der Entität, die das Rederecht hat und spricht; und somit den primären Redefluss generiert, während sie mit dem Reden dran ist. Der sekundäre Kommunikationskanal ist derjenige des Zuhörers - dabei erfolgt die verbale Übermittlung eines Backchannels über den primären Redefluss der Entität, die das Rederecht hat, oder über den Zustand des Zuhörers, der mit dem primären Redefluss möglicherweise verwandt oder nicht verwandt ist. Eine Backchannel-Äußerung während einer Konversation kann vorkommen, wenn ein Teilnehmer spricht und ein anderer Teilnehmer schnelle Antworten auf die Rede des Sprechers hineinwirft. Die Backchannel-Antwort kann für soziale oder metakonversationelle Zwecke benutzt werden, wie z. B. Andeuten der Aufmerksamkeit des Zuhörers, Verstehen oder dessen Fehlen, Unterstützung/Zustimmung, einen Klarstellungsbedarf, Überraschung, Mitgefühl oder sonstigen Zweck in Bezug auf das, was der Benutzer sagt; anstatt wichtige Informationen zu vermitteln. Einige Beispiele für Backchannel-Äußerungen sind Ausdrücke wie „ah-hah“, „äh“, „mm-hm“, „um-hm“, „okay“, „yeah“, „hmm“ und „ja“, „echt?“, „wow!“ usw.
Ein nicht-lexikalischer Backchannel kann ein vokalisierter Klang sein, der wenig oder keine referenzielle Bedeutung hat, aber dennoch die Aufmerksamkeit des Zuhörers verbalisiert, den Gedanken des Sprechers versteht, dem zustimmt, davon überrascht ist, darüber verärgert ist usw. In der englischen Sprache nehmen beispielsweise Klänge wie „uh-huh“, „mm-hm“, „um-hm“ und „hmm“ diese Rolle als nicht-lexikalische Backchannels wahr.
Bei der Konversationsgrundlage geht es darum, hinsichtlich des Geschehens in der Konversation auf derselben Wellenlänge zu sein. Die Konversationsgrundlage kann eine Sammlung von „gegenseitigem Wissen und gegenseitigen Überzeugungen“ von weithin bekannten Informationen und von Elementen sein, die in der aktuellen Konversation zuvor ausgesagt oder unterstellt wurden, wobei sich die aktuelle Konversation auf die Festlegung des gegenseitigen Wissens und der gegenseitigen Überzeugungen dahingehend, was ein Sprecher sagt, gründet.
Mikrointeraktion kann eine kleine fokussierte Benutzerinteraktion sein, die versucht, ein spezifisches Problem zu lösen oder eine spezifische Aufgabe auszuführen, und inhalts- oder domänenunabhängig ist.
Eine Antwort kann etwas wie eine direkte Antwort auf des Benutzers letzte Aussage oder etwas anderes wie eine Systemanforderung für mehr Informationen beinhalten.
1 veranschaulicht ein Blockdiagramm einer Ausführungsform einer Konversationsengagement-Mikroserviceplattform, die ein Konversationsintelligenz(KI)-Managermodul enthält, das eine regelbasierte Engine zu Konversationsintelligenz für den Dialogfluss zwischen einem Benutzer und einem VDA aufweist. Die multiplen Module, die innerhalb der Containerarchitektur der Konversationsengagement-Mikroserviceplattform 100 enthalten sind und miteinander kooperieren, können wie folgt funktionieren und kooperieren.
Der Konversationsassistent für Konversationsengagement-Plattform 100 kann verschiedene Module aus einem Text-zu-Sprache-Modul 112, einem Dialogmanagement-Modul 108, dem KI-Managermodul 106, einem automatischen audioverarbeitenden Modul 102, einem natürlichen Sprachgenerierungsmodul 110, einem gesprochene-Sprache verstehenden Modul 104, einem Umgebungsmodul 114 sowie anderen Modulen enthalten. Das KI-Managermodul 106 vermittelt Informationen vom und zum Benutzer, legt zweckmäßige Grundlagen fest und lässt den Benutzer den Fluss der Informationen steuern. Das KI-Managermodul 106 kann Sprechaktivitätserkennung, prosodische Analyse und Informationen aus dem Dialogmanagementmodul 108 benutzen, um zu entscheiden, wann gesprochen wird, und zu entscheiden, was als Antwort entsprechend zu tun ist. Das KI-Managermodul 106 kann das Text-zu-Sprache-Modul 112 benutzen, um eine prosodisch und konversationell geeignete Antwort zu generieren, die ein Backchannel oder etwas Anderes sein könnte. Das KI-Managermodul 106 ist dafür konfiguriert, Backchannels generieren zu können, sowie dafür, vom Benutzer generierte Backchannels identifizieren und verstehen zu können.
Konversationsintelligenz(KI)-Mana-germodul
Das Kl-Managermodul 106 ist dafür konfiguriert, sich mit einer Nabe-und-Speiche-Architektur zu verbinden, zum bilateralen (Eingabe- und Ausgabe-) Austausch von Informationen mit und Moderieren mit den zwei oder mehr Modulen in dieser Architektur, anstatt in einer linearen Pipeline-Architektur. Jedes Modul hat seinen eigenen spezifischen Detektor oder Satz von Detektoren zum Erkennen und Kooperieren mit dem KI-Managermodul 106 zum Analysieren und Vornehmen einer Bestimmung zu seiner eigenen KI-Mikrointeraktion. Das KI-Managermodul 106 ist konfiguriert zum Verdauen von Informationen aus den zwei oder [mehr] Modulen zu diesen linguistischen Mikrointeraktionen; einschließlich i) Tonfall, ii) Timing, iii) Äußerungen, iv) Übergangsworte und v) anderer menschenähnlicher Cues, wodurch ein Übergang des Rederechts signalisiert wird, um zu bestimmen, wie in Bezug darauf vorzugehen ist, ob das Rederecht zwischen dem Benutzer und dem VDA zu übernehmen, zu ergreifen oder abzutreten ist. In einer Ausführungsform können andere Architekturen als eine vollständig verbundene Architektur implementiert werden oder sammelt ein anderes Modul sämtliche Informationen und interagiert mit dem KI-Managermodul 106.
Das Kl-Managermodul 106 kann zugreifen, um das Rederecht zu übernehmen. Das KI-Managermodul 106 greift zu, wenn der Benutzer nicht das Rederecht aufgegeben hat (z. B. wenn das System unterbricht, wenn der Benutzer spricht, und den Benutzer zumindest vorübergehend am Sprechen hindert[)]; oder wenn bei Mehrparteien-Interaktionen, wobei nicht klar ist, wer an der Reihe ist, das System zu sprechen beginnt, wenn nicht klar ist, dass die anderen Sprecher das Rederecht aufgegeben haben. Der VDA kann das Rederecht haben und der Benutzer unterbricht (aber nicht mit einem Backchannel) oder nimmt eine Rederecht-Ergreifung vor - dann tritt das System generell an den Benutzer ab. Der VDA kann auch das Rederecht haben und der Benutzer äußert einen schnellen Backchannel, den das System erkennt, behält aber das Rederecht.
Das KI-Managermodul 106 kann sowohl gesprochene Worte individuell als auch vollständige Sätze analysieren und Konversations-Cues in einem Fluss und Austausch von menschlicher Kommunikation zumindest für Rederecht-Abwicklung in einer Nabe-und-Speiche-Architektur verwalten.
Das Kl-Managermodul 106 erlaubt dem VDA, flüssige Abwechslungen zu implementieren, z. B. unter Verwendung und Erkennung von Backchannels und nicht-lexikalischen Klängen, Erkennung von Rederecht-Ergreifungen oder Angeboten zur Abtretung des Rederechts, Abtretung des Rederechts und Zulassung dessen, dass der Benutzer und VDA Prosodie als informationstragenden Kanal benutzen.
Im Konversationsassistenten für Konversationsengagement 100 passt der VDA Konversationsaspekte dynamisch an, wie z. B. diejenigen im Zusammenhang mit Abwicklung des Rederechts und Aufbauen oder Wiederherstellen der Konversationsgrundlage, sowohl für beiläufige Konversation als auch gezielten Dialog unter Verwendung von Konversations-Cues über feste Timer und lexikalische Worte hinaus. Der Konversationsassistent für Konversationsengagement 100 versteht zudem menschliche Konversations-Cues und kann auch menschenähnliche Konversations-Cues in seinem Dialog mit einem Benutzer geeignet generieren.
Das KI-Managermodul 106 erlaubt VDAs auch, Mechanismen zu nutzen, die von Menschen jeden Tag dazu benutzt werden, normale Konversationen zu führen und gegenseitiges Verstehen erfolgreich zu erzielen und sicherzustellen. Konversationsintelligenz beinhaltet das Nutzen von Informationen, die normalerweise in menschlicher Konversation vorliegen, einschließlich Verwendungen von Prosodie, Backchannelling, Ergreifen oder Halten des Rederechts und so weiter, und dieser VDA nutzt sie innerhalb einer neuen Dialogarchitektur, die die wirkliche Komplexität der menschlichen Konversation widerspiegelt. Das KI-Managermodul 106 steuert viele Konversationsaspekte. Das Ergreifen oder Halten des Rederechts ist ein vom KI-Managermodul 106 gesteuerter Vorgang. Ein Backchannel ist ein Kommunikationsweg, der vom KI-Managermodul 106 benutzt und verstanden wird. Prosodie ist ein anderes von Menschen zum Kommunizieren benutztes Mittel, das vom KI-Managermodul 106 verstanden und benutzt wird. Das KI-Managermodul 106 verdaut Informationen aus multiplen Modulen, u. a. Tonfall, Timing, Worte und Verstehen, und bestimmt, wie vorzugehen ist.
Das KI-Managermodul 106 hat zumindest eine regelbasierte Engine zu Konversationsintelligenz für den VDA. Das KI-Managermodul 106 hat einen oder mehrere Eingänge zur Entgegennahme von Informationen aus einem Satz von Modulen, um Bestimmungen vorzunehmen sowohl zum i) Verstehen als auch ii) Generieren menschlicher Konversations-Cues in einem Fluss und Austausch von menschlicher Kommunikation zumindest zum Ergreifen und/oder Abtreten einer Rederecht-Abwicklung zwischen einem Benutzer und dem VDA, neben den anderen hierin diskutierten Konversationsaspekten. Man beachte, dass das KI-Managermodul 106 die regelbasierte Engine zum Analysieren und Vornehmen von Bestimmungen zu einem Redefluss zu und von einem Benutzer benutzt; anstelle der Bestimmung des Themas oder Inhalts der vom Benutzer gesprochenen lexikalischen Worte. Das KI-Managermodul 106 benutzt die regelbasierte Engine zum Analysieren und Vornehmen von Bestimmungen zum Fluss der Rede zum und vom Benutzer durch Analyse, beispielsweise, von nicht-lexikalischen Klängen, Stimmlage und/oder Prosodie der gesprochenen Worte, Pausieren und grammatischer Vollständigkeit der Satzsyntax. Die regelbasierte Engine benutzt diese Analyse zum Vornehmen von Bestimmungen beispielsweise dazu, welche Backchannel-Äußerungen zu generieren sind, um eine Reaktion zu signalisieren, wie z. B. ein Verstehen, eine Bestätigung oder eine Infragestellung der vermittelten Bedeutung der vom Benutzer gesprochenen Worte, bedeutenderweise, während der Benutzer weiterhin das Rederecht hat. Somit kann der Benutzer eine verbale Kommunikation äußern, wie z. B. einen Satz, und kann der VDA eine schnelle Backchannel-Äußerung durch das Text-zu-Sprache-Modul 112 generieren, während der Benutzer weiterhin das Rederecht hat; und somit bleibt der Benutzer während dieses Dialogs mit dem Sprechen an der Reihe. Beispielsweise kann der Benutzer verbal aussagen „Finde mir ein Hotel in Rom am Trevibrunnen“. Auf Basis der Prosodie und Stimmlage jener Worte und ggf. einer Pause nach dem letzten Wort „Trevibrunnen“ benutzt das KI-Managermodul 106 die regelbasierte Engine zum Analysieren und Vornehmen einer Bestimmung. Beispiel: deuten die temporeiche Prosodie und Stimmlage jener Worte und ein getimter Zeitraum nach dem letzten Wort „Trevibrunnen“ an, dass der Benutzer beabsichtigt, zusätzliche Informationen nach dieser anfänglichen Äußerung zu vermitteln, um seinen Gedanken abzuschließen? Oder deutet der abrupte Fluss jenes Satzes, mit einem Abfallen der Stimmlage am Ende des letzten Worts „Trevibrunnen“ und/oder satzendlicher Verlangsamung an, dass der Benutzer seinen aktuellen Gedanken abgeschlossen hat und beabsichtigt, das Rederecht abzutreten, um auf eine vollständige Antwort vom VDA zu warten?
Abermals benutzt das KI-Managermodul 106 die regelbasierte Engine zum Analysieren und Vornehmen einer beispielsweisen Bestimmung dazu, ob eine Backchannel-Äußerung wie z. B. „Uh-mm“ oder „Okay“ abzugeben ist, um schnell anzudeuten, dass die Module des VDA sowohl die Worte als auch die vermittelte Bedeutung hinter dem anfänglichen Gedanken „Finde mir ein Hotel in Rom am Trevibrunnen“ verstanden haben, indem diese kurze Backchannel-Äußerung generiert wird, während der Benutzer weiterhin das Rederecht hat und ohne dass der VDA versucht, das Rederecht zu übernehmen. Der Fluss der Rede und ihre Konversations-Cues vom Benutzer deuten an, dass der Benutzer beabsichtigt, die Vermittlung zusätzlicher Informationen nach diesem anfänglichen Gedanken fortzuführen, weshalb eine kurze Backchannel-Quittierung angemessen ist.
Alternativ benutzt das KI-Managermodul 106 die regelbasierte Engine zum Analysieren und Vornehmen einer beispielsweisen Bestimmung dazu, wann der Benutzer eine einzige, einen vollständigen Gedanken bildende Äußerung abgibt, dann weiß das KI-Managermodul 106, dass das Rederecht beim laufenden Dialog zwischen dem Benutzer und dem VDA zu übernehmen ist. Beispielsweise kann der VDA dann das Dialogmanager-Modul 108 referenzieren und das aktuelle Thema des Dialogs für den Benutzer mit einer vollständigen Äußerung wiedergeben. Beispielsweise kann der VDA aussagen „Dann wollen Sie also eine Reservierung für ein Hotelzimmer in Rom in fußläufiger Entfernung vom Trevibrunnen vornehmen?“, um eine Konversationsgrundlage für das Thema und Anliegen des aktuellen Dialogs zu bestätigen; anstatt einen bloßen Backchannel „uh-mm“ auszugeben in dem Bestreben, den Benutzer schnell zu mehr Informationen anzuregen. Wie später diskutiert wird, kann sich die vom KI-Managermodul 106 unter Verwendung der regelbasierten Engine getroffene Wahl zwischen einer Antwort i) eines vollständigen Satzes und ii) eines Backchannels, auf das Vertrauensniveau des Konversationsengagements 100 zum Verstehen der Bedeutung hinter dem vom Benutzer kürzlich Vermittelten verlassen. Man beachte, dass die Vollsatzantwort vorliegen kann, wenn das System bestimmt, dass der Benutzer genug Auskünfte gegeben hat (z. B. Reservierung für Hotel in Rom nahe dem Trevibrunnen): das KI-Managermodul 106 weist ein Nachschlagen von Hotels an, die den Kriterien entsprechen, und antwortet einfach mit den Auskünften, nach denen der Benutzer sucht. Die Antwort, d. h. Auskunft, nach der der Benutzer sucht, vermittelt implizit die Bestätigung der Konversationsgrundlage für das Thema und Anliegen des aktuellen Dialogs.
Das KI-Managermodul 106 analysiert und generiert eine Systemäußerung. Jene Systemäußerung könnte ein Backchannel sein und Quittierung andeuten, oder sie könnte stattdessen etwas Anderes andeuten, wie z. B. eine Bestätigung, Korrektur usw. und/oder einen Backchannel, der dem Benutzer erlaubt, das Rederecht zu behalten. Wenn das System das Verstehen des Benutzers korrigiert oder irgendwie um mehr Auskünfte bittet, hätte es das Rederecht.
Das KI-Managermodul 106 benutzt die regelbasierte Engine zum Analysieren und Vornehmen von Bestimmungen zu Faktoren von Konversations-Cues. Die regelbasierte Engine hat Regeln zum Analysieren und Vornehmen von Bestimmungen zu zwei oder mehr Konversations-Cues von i) nicht-lexikalischen Elementen, ii) Stimmlage gesprochener Worte, iii) Prosodie gesprochener Worte, iv) grammatischer Vollständigkeit der Satzsyntax im Redefluss des Benutzers und v) Pausendauer, vi) Grad der semantischen Beschränkungen der Äußerung eines Benutzers. Man beachte, dass die Stimmlage von gesprochenen Worten ein Bestandteil der Prosodie sein kann. Außerdem kann ein Grad der semantischen Beschränkungen der Äußerung eines Benutzers vorliegen, wenn ein Benutzer nach einem Restaurant sucht und dann ein wenig pausiert: das System bietet lediglich eine Fülle von Restaurantoptionen an. Wenn ein Benutzer jedoch nach einem teuren chinesischen Restaurant sucht, dann würde das System mehr Auskünfte haben und eventuell mit drei Optionen antworten, weil dies semantisch beschränkter wäre.
Das KI-Managermodul kann, nach Vornehmen dieser Bestimmungen und Analyse, dann entscheiden, ob eine Äußerung während des Zeitrahmens generiert werden soll, wenn der Benutzer weiterhin das Rederecht hat, für zumindest eines von 1) Anfordern zusätzlicher Informationen vom Benutzer, 2) Signalisieren an den Benutzer, das Rederecht zu behalten und weiterzusprechen, oder 3) Anzeigen, dass der VDA den Wunsch hat, das Rederecht zu ergreifen; im Gegensatz zum reinen Warten auf eine Pause von fester Zeitdauer und zur anschließenden Annahme, dass der Benutzer das Rederecht abgetreten hat. Somit kann das KI-Managermodul 106 das Rederecht übernehmen, um den Benutzer zu befragen oder auf den Wunsch des Benutzers zu antworten oder sich per Backchannel rückzumelden, wenn der Benutzer nicht das Rederecht aufgegeben hat. Man beachte, dass, wenn der Benutzer seine Äußerung beendet hat (was das System überwiegend durch Prosodie weiß), der Benutzer dann andeutet, dass er das Rederecht aufgibt.
Das Kl-Managermodul 106 hat eine regelbasierte Engine zu Konversationsintelligenz für den VDA, wodurch das Ergreifen und/oder Abtreten der Rederecht-Handhabung mit über lexikalische Worte oder einen festen Timer hinausgehenden Konversations-Cues vermittelt wird. Man beachte, dass das KI-Managermodul 106 auch einen Timer mit fester Dauer benutzen kann, vor der Entscheidung, den Benutzer weiter aufzufordern, aber auch zumindest auf andere Konversations-Cues schaut, wie z. B. i) nicht-lexikalische Elemente, ii) Prosodie gesprochener Worte und iii) grammatische Vollständigkeit der Satzsyntax im Redefluss des Benutzers zwecks Rederecht-Abwicklung. Man beachte auch, dass das KI-Managermodul 106 konfiguriert ist zum Überwachen und Unterstützen eines Redeflusses beim Dialog mit dem Benutzer, anstelle von Pflichten, zu deren Ausführung das Dialogmanagement-Modul 108 konfiguriert ist, z. B. Verstehen und Schritthalten mit einem aktuellen Thema im Dialog.
Das Dialogmanagement-Modul 108 kann mehrere erstellte Fälle aufweisen. Jedes Dialogmanagement-Modul 108 kann mit einem Satz von Modellen zu einer besonderen Domäne trainiert werden, wie z. B. Reise, Medizin, Finanzen usw., mit Training zum Identifizieren des Themas und eines Vorlagensatzes von zweckmäßigen Fragen und Antworten mit Slots zum Füllen mit verschiedenen Fakten aus dem aktuellen Dialog innerhalb jener besonderen Domäne. Das KI-Managermodul 106 ist jedoch konfiguriert zum Überwachen und Unterstützen eines Redeflusses beim Dialog zwischen dem Benutzer und dem VDA, was generell in allen Domänen menschlicher Themen zutrifft.
Die Dialogfähigkeit im Konversationsassistenten für Konversationsengagement 100 wird über die Dialogregeln in der regelbasierten Engine optimiert, um einen Beinahe-Mensch-zu-Mensch-Dialog zu unterstützen, der multimodale Eingaben nutzt, wie z. B. Verstehen von benutzerseitigem Backchannelling, Stimmlage/Tonfall von Worten des Benutzers, Emotion des Benutzers usw., um diese Eingaben in nachfolgenden Dialogen zu nutzen.
Ein automatisches audioverarbeitendes Eingabe-/Ausgabemodul
Das automatische audioverarbeitende Eingabe-/Ausgabemodul im KI-Managermodul 106 hat i) eine oder mehrere Schnittstellen zu Zustandsdaten für einen Spracherkennungsprozess, ii) Links zu den Zustandsdaten für das Ende des Spracherkennungsprozesses und iii) beliebige Kombination von beiden aus dem automatischen audioverarbeitenden Modul 102. Die Links und/oder Schnittstellen tauschen Informationen mit dem automatischen audioverarbeitenden Modul 102 aus, um die Audioeingabe des Benutzers zu erkennen und in ein Textformat und/oder Waveform-Format umzuwandeln. Das automatische audioverarbeitende Modul 102 nimmt Spracheingaben des Benutzers über ein oder mehrere Mikrofone entgegen. Die Links und/oder Schnittstellen tauschen Informationen mit dem automatischen audioverarbeitenden Modul 102 aus, um Audioeingaben des Benutzers aus dem einen oder mehreren Mikrofonen zu erkennen und nachzuvollziehen.
Das KI-Managermodul 106 hat einen Timer für den vom Benutzer stammenden Redefluss. Beispielsweise kann der Timer für gesprochene Systemausgaben benutzt werden (d. h. das System sagt etwas und wartet dann nicht mehr als X Sekunden auf eine Antwort).
Das Kl-Managermodul 106 hat einen Disfluenzdetektor für eine Mikrointeraktion zu einer Analyse von Timing-Informationen zum vom Benutzer stammenden Redefluss. Die Timing-Informationen können zur prosodischen Analyse benutzt werden. Die Timing-Informationen können auch für einen Timer zum Bestimmen von Zeitdauern benutzt werden, wie z. B. einer 0,75 Sekunden langen Pause nach Entgegennahme des letzten Worts in einem abgeschlossenen Gedanken des Benutzers, was andeutet, dass der Benutzer das Rederecht abtritt. Die Timing-Informationen können auch zur Bestimmung fester Zeitverzögerungen benutzt werden. Gleichermaßen können die Timing-Informationen der Prosodie einen abgeschlossenen Gedanken des Benutzers vermitteln.
Das automatische audioverarbeitende Modul 102 beinhaltet Komponenten und vollführt die Funktionen von automatisierter Spracherkennung einschließlich Sprechaktivitätserkennung. Das KI-Managermodul 106 hat einen prosodischen Detektor für eine Mikrointeraktion zu einer prosodischen Analyse eines Rhythmus und einer Melodie der Rede des Benutzers als Konversations-Cue. Das KI-Managermodul 106 nimmt Eingabedaten zur prosodischen Analyse aus dem automatischen audioverarbeitenden Modul 102 entgegen. Der prosodische Detektor ist auch konfiguriert, zuerst zu prüfen, um zu erkennen, ob irgendeine Sprechaktivität vorkommt, beispielsweise über einen die Sprechaktivität verfolgenden Timer, und zwar aus dem automatischen audioverarbeitenden Modul 102, und anschließend eine prosodische Analyse an einem Ende' und/oder ,während' der Äußerung eines Benutzers unter Verwendung des prosodischen Detektors unter Verwendung von Sprachanalytik anzuwenden. Die erste Prüfung hilft beim Reduzieren von Verarbeitungszeiten und -aufwand bei Anwendung der prosodischen Analyse. In einer Ausführungsform ist der prosodische Detektor separat vom Sprechaktivitätsdetektor.
Das Kl-Managermodul 106 benutzt die Eingabe aus dem prosodischen Detektor zur Bestimmung dessen, i) ob der Benutzer in der Tat das Rederecht abgetreten hat, oder ii) ob der Benutzer Pausen in seinen Redefluss einfügt, um zusätzliche Informationen zu vermitteln. Man beachte, dass die zusätzlichen Informationen Folgendes beinhalten können: 1) Sprechen mit Pausen, die dabei helfen, eine lange Liste von Informationen zu vermitteln und zu verstehen, 2) Sprechen mit Pausen zwischen zwei oder mehr Benutzeräußerungen, sodass der Benutzer anfänglich unvollständig mit einer ersten Äußerung antwortet, gefolgt von einer Pause, und dann einer späteren Äußerung, um einen Gedanken abzuschließen, den der Benutzer mit jener Sprechaktivität zu vermitteln versucht, sowie 3) eine beliebige Kombination dieser beiden.
Eingabe-/Ausgabemodul zum Verstehen gesprochener Sprache (SLU-Einqabe-/ Ausgabemodul)
Das SLU-Eingabe-/Ausgabemodul im Kl-Managermodul 106 hat i) eine oder mehrere Schnittstellen zu Zustandsdaten zum Analysieren und Verstehen von Worten einschließlich Äußerungen eines gesprochenen Sprachvorgangs, ii) Links zu den Zustandsdaten für den gesprochenen Sprachvorgang und iii) eine beliebige Kombination von beiden aus dem SLU-Modul 104. Die Links und/oder Schnittstellen tauschen Informationen mit dem SLU-Modul 104 aus, um Audioeingaben des Benutzers aus einem oder mehreren Mikrofonen zu erkennen und nachzuvollziehen.
Das Kl-Managermodul 106 kooperiert mit dem Modul zum Verstehen gesprochener Sprache 104 zum Bereitstellen von Eingabeinformationen für Mikrointeraktionen zum benutzerbezogenen Analysieren i) von Emotion in der Antwort, ii) eines akustischen Tons einer Äußerung, durch Umwandeln einer Zeichenfolge in eine Folge von Tokens, iii) etwaiger Diskursmarker sowie iv) einer beliebigen Kombination dieser drei, um die Haltung eines Benutzers zu dem vom Benutzer Gesagten aus Eingabedaten aus dem Modul zum Verstehen gesprochener Sprache 104 anzugeben. Das Modul zum Verstehen gesprochener Sprache 104 kann Eingaben zu einem emotionalen Aspekt der verbalen Kommunikation, einem akustischen Aspekt der verbalen Kommunikation, lexikalischer Wortanalyse der verbalen Kommunikation und Diskursmarkern in der verbalen Kommunikation bereitstellen. Somit ist das KI-Managermodul 106 konfiguriert zum Vornehmen einer Bestimmung unter Berücksichtigung der emotionalen Antwort, des akustischen Tons der Äußerung und der Diskursmarker aus dem Modul zum Verstehen gesprochener Sprache 104 und anschließenden Ausgeben seiner eigenen Antwort, über ein natürliches Sprachgenerierungsmodul 110, das mit dem Text-zu-Sprache-Modul 112 kooperiert, um 1) das Rederecht abzutreten und 2) den Benutzer zu ermutigen, seine Gedanken über einen Backchannel auszudrücken oder das Rederecht zu übernehmen, um zumindest zu fragen, ob der Benutzer noch etwas Anderes vermitteln will.
Einige exemplarische Diskursmarker zum Andeuten der Haltung eines Benutzers zu dem, was der Sprecher sagt, sind „oh!“, „na ja!“, „dannn ...“, „du weißt schon“, „ich meine ...“, „so!!“, „weil!“ und „aber!!“
In einer Ausführungsform ist das Eingabe-/Ausgabemodul zum Verstehen gesprochener Sprache dafür konfiguriert, zumindest die Benutzerzustandsanalyse aus dem Modul zum Verstehen gesprochener Sprache 104 zu benutzen, um die Metrik zu extrahieren, die mit dem Benutzer durch Konversationen mit dem Benutzer über multiple verschiedene Interaktionszeiträume in Verbindung gebracht werden kann. Das Eingabe-/Ausgabemodul zum Verstehen gesprochener Sprache hat eine oder mehrere Schnittstellen und/oder Links zu den Zustandsdaten aus den Modulen für emotionale Benutzerzustände, wie z. B. SenSay und J-miner. Die Module für emotionale Benutzerzustände schätzen den Benutzerzustand einschließlich Emotion, Sentiment, Kognition, geistiger Gesundheit und Kommunikationsqualität, in einer Reihe von Endanwendungen, und die Schnittstellen aus dem Eingabe-/Ausgabemodul für die Benutzerzustandsanalyse können die Schätzungen und Daten aus den Modulen für emotionale Benutzerzustände hoch- oder herunterladen.
Eingabe-/Ausgabemodul für natürliche Sprachgenerierung
Das Eingabe-/Ausgabemodul für natürliche Sprachgenerierung (NLG) im KI-Managermodul 106 hat i) eine oder mehrere Schnittstellen zum Generieren von verbalen Kommunikationen (d. h. Äußerungen) auf normale Weise und/oder Dialekt für eine gegebene menschliche gesprochene Sprache. Wie diskutiert können das KI-Managermodul 106 und TTS-Modul 112 mit dem NLG-Modul 110 und einem gegebenen Modell der menschlichen gesprochenen Sprache kooperieren, um Phraseologie und Rede in einer gegebenen menschlichen Sprache zu generieren.
Das KI-Managermodul 106 ist konfiguriert zum Verdauen von Informationen aus zumindest einem Modul zum Verstehen gesprochener Sprache 104 zu Mikrointeraktionen einschließlich i) eines Tonfalls oder einer Stimmlage, ii) Timing-Informationen, iii) einer Äußerung, iv) eines Übergangsworts und v) eines sonstigen menschlichen Cues, wodurch ein Übergang des Rederechts signalisiert wird, um zu bestimmen, wie in Bezug darauf vorzugehen ist, ob das Rederecht zwischen dem Benutzer und dem VDA zu übernehmen, zu ergreifen oder abzutreten ist.
Das KI-Managermodul 106 hat eine Eingabe aus einem Konversationsgrundlagen-Detektor für eine Mikrointeraktion zum Bestimmen dessen, wann sich ein gegenseitiges Verstehen zwischen einem Benutzer und dem VDA nicht ergibt. Das KI-Managermodul 106 kann das Dialogmanager-Modul 108 referenzieren, um zu sehen, was nach Meinung des Dialogmanager-Moduls 108 das verfolgte aktuelle Thema ist, möglicherweise, was das unmittelbar vorhergehende Thema war, und ob der vom Sprecher vermittelte Gedanke bei diesem Thema Sinn macht. Wenn das KI-Managermodul 106 die Bestimmung vornimmt, dass sich das gegenseitige Verstehen nicht ergibt, dann sind das KI-Managermodul 106, ein natürliches Sprachgenerierungsmodul 110 und Text-zu-Sprache-Modul 112 zum Kooperieren konfiguriert, um eine oder mehrere Fragen zu äußern, um ein gegenseitiges Verstehen für die aktuelle Konversation wiederherzustellen. Die regelbasierte Engine hat Regeln, um zu entscheiden, wann sich das gegenseitige Verstehen zwischen dem Benutzer und dem VDA nicht ergibt, beispielsweise auf Basis eines Vertrauensniveaus. Das KI-Managermodul 106 bewirkt, dass das Text-zu-Sprache-Modul 112 Fragen äußert, um ein gegenseitiges Verstehen aufzubauen, wie z. B. „Haben Sie verstanden?“, „Sollte ich etwas wiederholen?“ usw., wenn die anhaltende Pause in der Konversation, wie vom Timer angedeutet, über eine festgelegte Zeitdauer hinausgeht; außerdem wird das natürliche Sprachgenerierungsmodul 110, das mit dem Text-zu-Sprache-Modul 112 kooperiert, angewiesen, einen Backchannel zu äußern, um dem Benutzer zusätzliche Informationen zu entlocken, anstelle der Andeutung des Wunsches, das Rederecht zu ergreifen.
Text-zu-Sprache- (TTS) Ein-gabe-/Ausgabemodul
Das TTS-Eingabe-/Ausgabemodul im KI-Managermodul 106 hat i) eine oder mehrere Schnittstellen zu Zustandsdaten für einen Text-zu-Sprache-Vorgang, ii) Links zu den Zustandsdaten für den Text-zu-Sprache-Vorgang und iii) eine beliebige Kombination von beiden aus einer Text-zu-Sprache-Komponente. Die Links und/oder Schnittstellen tauschen Informationen mit i) dem TTS-Modul 112 aus, um Audioausgaben aus einem Textformat oder Waveform-Format zu generieren, und ii) arbeiten mit einem natürlichen Sprachgenerierungsmodul 110, um Audio-Antworten und Rückfragen vom KI-Managermodul 106 zu generieren. Das TTS-Modul 112 benutzt einen oder mehrere Lautsprecher zum Generieren der Audioausgaben, damit der Benutzer sie hören kann.
In einer Ausführungsform kooperieren das KI-Managermodul 106 und Text-zu-Sprache-Modul 112, um zu bestimmen, wann Ausgaben aus einer Text-zu-Sprache-Synthese nicht-lexikalische Ereignisse erzeugen und ein Ausgabe-Timing gesprochener Phoneme steuern sollten. Das Text-zu-Sprache-Modul 112 und das KI-Managermodul 106 können konfiguriert sein zum Bestimmen konversationsrelevanter Informationen über die Phoneme hinaus (d. h. paralinguistisch) mittels Verwendung eines neuralen Netzwerkmodells, das unter Verwendung von Deep Learning zum Extrahieren von Phonemen trainiert ist, die von langer Dauer (z. B. 90. Perzentil) für ihre Klasse sind, und Annotieren von phrasenfinaler Prosodie unter Verwendung einer Stimmlagen-Trajektorie aus einem Grundfrequenz-(f0-) Tracker. Das Text-zu-Sprache-Modul 112 kann ein Modell für nicht-lexikalische Klänge in jeder menschlichen Sprache referenzieren, um das Generieren nicht-lexikalischer Klänge zu unterstützen.
Das natürliche Sprachgenerierungsmodul 110 ist konfiguriert zum Verwenden von Prosodie, einschließlich Stimmlage, um dem KI-Managermodul 106 und dem Benutzer zu ermöglichen, eine Konversationsgrundlage mittels Prosodie aufzubauen, wenn das Text-zu-Sprache-Modul 112 an den Benutzer gerichtete Rede generiert. In Fällen, in denen Zweideutigkeit oder Unsicherheit existiert, müssen der VDA und der Benutzer dies klären und auf den für den Benutzer besten Vorwärtsweg kommen.
Es gibt mehrere Arten von Situationen, in denen Zweideutigkeit oder Unsicherheit existiert. Beispiel: (a) das KI-Managermodul 106 erteilt eine Instruktion zum Generieren eines Worts (in Textform) und ist nicht sicher, wie die richtige Aussprache lautet, die vom Text-zu-Sprache-Modul 112 zu erzeugen ist, (b) der Benutzer hat etwas vom Modul zum Verstehen gesprochener Sprache verbal angefordert, der Benutzer hat aber nicht genug Informationen zur eindeutigen Angabe des Wunsches vorgelegt und ist sich nicht dessen bewusst, dass der Wunsch unterspezifiziert ist (z. B. bittet der Benutzer namentlich um ein Haushaltswarengeschäft und ist sich nicht bewusst, dass es mehrere Filialen dieses Geschäfts in nicht allzu weiter Entfernung gibt), (c) der Benutzer hat vom Modul zum Verstehen gesprochener Sprache etwas verbal angefordert, ohne dies eindeutig zu spezifizieren, aber weiß oder kann vom Kl-Managermodul 106 darauf aufmerksam gemacht werden, dass das gewünschte Etwas nicht eindeutig genug spezifiziert war (z. B. bittet der Benutzer namentlich um eine Bank und weiß, dass es mehrere Filialen gibt, vergaß aber zu sagen, welche Filiale er wollte). In all diesen drei Szenarien eliminieren der Benutzer und das KI-Managermodul 106 die Zweideutigkeit, um mittels Prosodie eine Konversationsgrundlage aufzubauen. Gleichermaßen ist das automatische audioverarbeitende Modul 102 konfiguriert zum Analysieren der Prosodie, einschließlich Stimmlage, aus der Rede des Benutzers, um dem KI-Managermodul 106 und dem Benutzer zu ermöglichen, die Konversationsgrundlage durch Erkennung einer Prosodieveränderung betreffend spezifische Informationen in der Rede des Benutzers aufzubauen. In beiden Fällen baut die Entität, die die Veränderung der Prosodie betreffend die spezifischen Informationen mit dem unsicheren Status hört, die Konversationsgrundlage durch Generieren einer Vokalisation, eines Satzes oder einer sonstigen Äußerung auf, entweder i) gerichtet auf die und unter Verwendung der spezifischen Informationen mit dem unsicheren Status oder ii) gerichtet auf eine und unter Verwendung einer logische(n) Alternative zu den spezifischen Informationen mit dem unsicheren Status.
Wenn eine Zweideutigkeit vorliegt, kooperieren das KI-Managermodul 106 und das natürliche Sprachgenerierungsmodul 110, um eine wahrscheinlichste Lösung mittels Rede darzubieten, ohne andere mögliche Lösungen auf einem Anzeigebildschirm anzeigen zu müssen. Das natürliche Sprachgenerierungsmodul 110 ist konfiguriert zum Verwenden von Prosodie als Seitenkanal zu einem Haupt-Voicekanal, und zwar derart, dass das natürliche Sprachgenerierungsmodul 110 Informationen, die unsicher sind, prosodisch markieren kann. Das natürliche Sprachgenerierungsmodul 110 benutzt die Prosodie mittels prosodisch markierender spezifischer Informationen, die bei einer verbalen Kommunikation unsicher sind, um die spezifischen Informationen, die innerhalb der verbalen Kommunikation prosodisch markiert sind, hervorzuheben, damit sich der Benutzer des Unsicherheitsstatus der spezifischen Informationen bewusst ist. Das Text-zu-Sprache-Modul 112 generiert an den Benutzer gerichtete Rede, wodurch die Prosodie betreffend spezifische Informationen, die bei einer verbalen Kommunikation unsicher sind, geändert wird. Außerdem wird kein zusätzlicher visueller Kanal benötigt, damit der Benutzer die prosodisch markierten unsicheren Informationen hören und verstehen kann, dass, implizit, die prosodisch markierten unsicheren Informationen innerhalb einer größeren verbalen Kommunikation in Frage stehen. Wenn der Benutzer die unsicheren Informationen, die prosodisch markiert waren, korrigieren und/oder ändern will, verstehen der Benutzer und das KI-Managermodul 106 aufgrund des prosodischen Seitenkanals implizit, worin die fraglichen unsicheren Informationen bestehen.
Beispiel: angenommen, der Benutzer sagt „zu welchen Zeiten ist Wells Fargo offen?“ Nach einer schnellen Suche bestimmt das KI-Managermodul 106, dass es zwei nahegelegene Wells Fargo-Filialen gibt. Eine Wells Fargo-Filiale ist auf der 5th Avenue und eine andere Wells Fargo-Filiale ist auf der Main Street. Ergänzende Informationen zeigen jedoch auch, dass die Wells Fargo-Filiale auf der 5th Avenue die größere und die häufiger angefragte Filiale ist. Das natürliche Sprachgenerierungsmodul 110, das Kl-Managermodul 106 und die Text-zu-Sprache-Modul 112 kooperieren, um beispielsweise zu sagen „Die Wells Fargo auf der 5th Avenue ist von 9 bis 18 Uhr offen“, mit einer langsamere Prosodie auf „5th Avenue“ und einem Abfall der Stimmlage nach „Avenue“, wodurch dem Benutzer konversationell vermittelt wird, dass die Wells Fargo auf der 5th Avenue nicht die einzige mögliche Wells Fargo-Filiale ist. Im Allgemeinen kann der Benutzer auf eine von zwei möglichen Weisen vorgehen. Der Benutzer kann diese Informationen generell - prosodisch hervorgehoben - akzeptieren. Beispielsweise, „ja - 5th Avenue“. Alternativ kann der Benutzer auf den prosodisch hervorgehobenen Abschnitt der verbalen Kommunikation vom VDA mit einer logischen Alternative zu den spezifischen Informationen mit dem unsicheren Status antworten. Beispielsweise könnte der Benutzer antworten „Sorry, ich meinte diejenige auf der Main Street“ oder „Wie wäre es mit der Filiale auf der Main Street?“ oder „Gibt es eine Filiale, die später geöffnet ist?“ Die Entität, die die Veränderung der Prosodie betreffend die spezifischen Informationen mit dem unsicheren Status hört, baut die Konversationsgrundlage durch Generieren einer Vokalisation, eines Satzes oder einer sonstigen Äußerung auf, entweder i) gerichtet auf die und unter Verwendung der spezifischen Informationen mit dem unsicheren Status oder ii) gerichtet auf eine und unter Verwendung einer logische(n) Alternative zu den spezifischen Informationen mit dem unsicheren Status.
Somit kann der VDA sowohl eine Veränderung der Prosodie betreffend spezifische Informationen verstehen, um eine Konversationsgrundlage aufzubauen, als auch eine Veränderung der Prosodie betreffend spezifische Informationen benutzen, um eine Konversationsgrundlage aufzubauen.
Dialoamanaaement-Modul
Das Dialogmanagement-Modul 108 empfängt Metrik, die an einen Benutzer gebunden ist, aus den anderen Modulen, um ein aktuelles Thema und Emotionen eines Benutzers betreffend das aktuelle Thema zu verstehen, aus dem Eingabe-/Ausgabemodul zum Verstehen gesprochener Sprache, und adaptiert dann Dialog aus dem Dialogmanagement-Modul 108 für den Benutzer auf Basis der Dialogregeln, unter Berücksichtigung dieser unterschiedlichen Metrik. Der konversationelle Inhalt des Konversationsassistenten kann in der deklarativen, domänenspezifischen Dialogbeschreibungssprache spezifiziert sein, die ein schnelles und expressives kontextbewusstes Modellieren von konversationellem Inhalt für Endbenutzer in einer textuellen Sprache ermöglicht.
Das Dialogmanagement-Modul 108 benutzt Regeln, kodifiziert durch die Dialogbeschreibungssprache (oder erneut alternativ implementiert mit einem Entscheidungsbaum und/oder trainierten künstlichen Intelligenzmodell), um zu erkennen, wann eine vom Benutzer eingeleitete Themenverschiebung vorkommt, sowie wann der Konversationsassistent eine Themenverschiebung versuchen sollte, und generiert dann (eine) adaptierte, sich des Benutzerzustands bewusste Antwort(en) auf Basis des Konversationskontexts. Der Dialog-Workflow in der Dialogbeschreibungssprache ermöglicht eine expressive kontextbewusste Modellierung des konversationellen Inhalts für Endbenutzer in einer textuellen Sprache. Man beachte, dass, in einer Ausführungsform, die durch die Dialogbeschreibungssprache kodifizierten (oder erneut alternativ mit einem Entscheidungsbaum und/oder trainierten künstlichen Intelligenzmodell implementierten) Regeln Dialogrichtlinien, Dialoganweisungen, Dialogvorschriften, Dialogfaktoren, usw. Faktoren sind, die das resultierende Ergebnis aus beliebigen von' und/oder ,aus allen 3 von' einem Entscheidungsbaum oder ML oder Reinforcement Learning lenken.
Das Dialogmanager-Modul 108 ist bilateral mit einer Eingabe und einer Ausgabe mit dem KI-Managermodul 106 verbunden. Das Dialogmanager-Modul 108 ist konfiguriert zum Analysieren und Verfolgen zumindest eines Dialogzustands, einschließlich eines aktuellen Themas, für einen Äußerungs- und Antwortzyklus.
Das themenverstehende Eingabe-/Ausgabemodul erkennt und verfolgt Themen-ID zum korrekten Identifizieren des Satzes von Themen, die in der Freiform-Konversation (im Gegensatz zu einem strukturierten, menübaumartigen Dialog mit dem Benutzer) diskutiert werden. Das themenverstehende Eingabe-/Ausgabemodul kann die Themen-ID speichern. Die hierarchische Klassifikator- und Co-Clustering-Pipeline nutzt Deep Learning-(z. B. CNNs) Technologien einschließlich Co-Clustering- und hierarchischer Klassifikatoren zum Identifizieren des Themas.
Umgebungs-Eingabe-/Ausgabemodul
In einigen Situationen hat der voicebasierte digitale Assistent ein oder mehrere Umgebungsmodule 114 in kommunikativer Verbindung mit dem KI-Managermodul 106, die konfiguriert sind zur Bereitstellung von Informationen über einen Weltkontext, mit dem der Benutzer interagiert. Beispiel: wenn der Benutzer fährt und der VDA mit dem PKW integriert ist oder gegenwärtig eine drahtlose Kommunikationsverbindung zum PKW aufweist, können die Umgebungsmodule des VDA Informationen aus PKW-Sensoren über die Fahrumgebung oder über das Fahren des Benutzers erhalten. In einem anderen Beispiel können die Umgebungsmodule 114 des VDA auf das Hintergrundrauschen horchen und Informationen über den Benutzer umgebende Aktivität oder Veränderungen dieser Aktivität zusammentragen. Das KI-Managermodul 106 kann die Informationen verwenden, um beim Bestimmen dessen zu helfen, wann der Benutzer gegenwärtig abgelenkt und minder fähig ist, Rede aus dem VDA zu verarbeiten. Die regelbasierte Engine kann Regeln ähnlich zu denjenigen beinhalten, die beobachtet werden, wenn ein menschlicher Mitfahrer in einem PKW das Sprechen einstellt oder allenfalls kurze Kommunikationen vermittelt, wenn der menschliche Mitfahrer bemerkt, dass der Fahrer den Anforderungen des Fahrens größere Aufmerksamkeit schenken muss. Eine andere Weise, auf die das KI-Managermodul 106 des VDA feststellen kann, dass der Benutzer abgelenkt ist, besteht im Analysieren von Disfluenzeingaben aus den Modulen und Analysieren von Pausen in der Rede des Benutzers sowie davon, wie oft der Benutzer das Sprechen abrupt eingestellt hat, ohne seinen Satz zu beenden.
Es gibt zwei Beispielszenarien, die ebenfalls von den Regeln bei der Analyse berücksichtigt werden können. (1) Der Benutzer hat das Rederecht und stellt das Sprechen ein, und der VDA denkt möglicherweise, basierend i) auf externen Faktoren (z. B. Eingaben aus den Sensoren) und/oder ii) auf Benutzerverhalten, unter Befolgung der dargelegten Regeln, dass es wahrscheinlich ist, dass der Benutzer abgelenkt ist, (2) Der VDA hat das Rederecht und der VDA kann schlussfolgern, basierend auf externen Faktoren, dass es wahrscheinlich ist, dass der Benutzer derzeit abgelenkt ist.
Wenn das KI-Managermodul 106 des VDA das Rederecht hat und unsicher ist, ob der Benutzer abgelenkt ist, benutzt das KI-Managermodul 106 einen Satz von Regeln, um zu versuchen, seine Gewissheit durch Pausieren zu einem Zeitpunkt zu erhöhen, zu dem ein schneller Backchannel eines Benutzers angemessen wäre. Ob sich der Benutzer eines Backchannels bedient (oder etwas wie „warte mal“ sagt), bzw. wie lange der Benutzer für den Backchannel braucht, kann nachweisen, dass der Benutzer derzeit abgelenkt ist oder nicht; und somit die Gewissheit des KI-Managermoduls 106 hinsichtlich des Zustands des Benutzers erhöhen.
Wenn das KI-Managermodul 106 des VDA bestimmt, dass der Benutzer möglicherweise abgelenkt ist, ergreift das KI-Managermodul 106 Maßnahmen, um sein Verhalten an den Aufmerksamkeitsgrad des Benutzers anzupassen. (a) Wenn der VDA das Rederecht hat, könnten derartige Maßnahmen das Verlangsamen der aus dem Text-zu-Sprache-Modul ausgegebenen Rede, Pausieren für längere Zeiträume, längeres Warten auf Backchannels vom Benutzer oder Einstellen des Sprechens für einige Zeit, um Überlastung des Benutzers zu vermeiden, beinhalten. Wenn das KI-Managermodul 106 eine Instruktion erteilt, mit dem Sprechen aufzuhören, weil es denkt, dass der Benutzer abgelenkt ist, kann das KI-Managermodul 106 vermitteln, dass es aufgehört hat, um Überlastung des Benutzers zu vermeiden, und dass der VDA nicht wegen eines Fehlers oder Ausfalls des Systems aufgehört hat. Das KI-Managermodul 106 kann eine Instruktion erteilen, um etwas wie „sollte ich warten?“, „sollte ich weitermachen?“, „lassen Sie mich wissen, wann Sie bereit sind“ bzw. „ich werde warten“ zu sagen. Wenn der VDA das Sprechen einstellt, kann es sinnvoll sein, dem Benutzer zu vermitteln, dass dies ein bewusster Stopp und keinerlei Systemfehler war, möglicherweise durch Verwendung des TTS-Moduls, um eine menschenähnlichere Art des Beendens des Sprechens anstelle lediglich eines abrupten Stopps zu generieren. In einer Ausführungsform kann der VDA auf andere Weisen vermitteln, dass er gestoppt hat, um Überlastung des Benutzers zu vermeiden (ohne eigentlich Worte zu sprechen). Wenn der Benutzer das Rederecht hat, kann der VDA außerdem - als exemplarische Maßnahme - länger auf Eingabe des Benutzers warten, bevor der Benutzer zum Weitermachen aufgefordert wird.
Das Kl-Managermodul 106 benutzt Regeln, die von der Vertrautheit des Benutzers mit dem VDA abhängen. Wenn der VDA für den Benutzer neu ist, könnte der VDA etwas Ausdrückliches wie „lassen Sie sich Zeit“ (wenn der Benutzer das Rederecht hat) oder „ich werde warten“ (wenn der VDA das Rederecht hat) sagen, sowohl um dem Benutzer beizubringen, dass der VDA auf Ablenkung des Benutzers anspricht, als auch den Benutzer von der Denkweise abzuhalten, dass der VDA einen Systemausfall erlitten hat. Wenn der Benutzer vertrauter mit dem VDA ist und von dessen Fähigkeiten nicht überrascht wird, kann der VDA stumm bleiben und nicht etwas wie „sollte ich warten?“ sagen. Der VDA kann mit der Zeit lernen, wie oft der Benutzer pausieren will, wenn er anderen Dingen Aufmerksamkeit schenkt; hierin besteht eine Form der Anpassung, da Benutzer hinsichtlich ihrer Fähigkeit, gleichzeitige Aufgaben zu erledigen, variieren können.
Der VDA speichert die letzten Dialogminuten und erinnert sich an jenen Inhalt, wenn pausiert wird, um das insgesamte Arbeitspensum des Benutzers zu reduzieren. Das KI-Managermodul 106 generiert eine Zusammenfassung des kürzlichen Dialogs, sodass, wenn die Interaktion mit dem VDA fortgesetzt wird, das KI-Managermodul 106 dann die Zusammenfassung des kürzlichen Dialogs liefert.
Das insgesamte Arbeitspensum des Benutzers wird dadurch reduziert, dass vom Benutzer nicht erwartet wird, etwas des vorher Gesagten zu wiederholen.
Regelbasierte Engine mit zusätzlichem Detail
Die in der regelbasierten Engine kodierte Konversationsintelligenz (KI) erlaubt VDAs die Nutzung von Mechanismen, die von Menschen jeden Tag dazu benutzt werden, gewöhnliche Konversationen zu führen und gegenseitiges Verstehen erfolgreich zu erzielen und sicherzustellen. Das KI-Managermodul 106 sucht nach Informationen, die in menschlicher Konversation bereits verfügbar sind, einschließlich Verwendungen von Prosodie und Backchannelling, zum Ergreifen oder Behalten des Rederechts und so weiter, um die wirkliche Komplexität der menschlichen Konversation widerzuspiegeln.
Das Kl-Managermodul 106 benutzt eine regelbasierte Engine zu Konversationsintelligenz, um über die Worte hinausgehende Konversations-Cues zu verstehen und zu generieren, um Vertrauen aufzubauen, während komplexe Konversationen reibungslos navigiert werden, wie z. B. i) nicht-lexikalische vokale Cues, wie z. B. die Äußerung „Uhmm“, und ii) Stimmlage, wie z. B. „Echt!!“ oder „Echt??“, die benutzt werden, um den eigentlichen Dialog zu koordinieren, iii) ein „Grounding“ der Konversation und Aufbauen einer gemeinsamen Grundlage, iv) abwechselndes Innehaben des Rederechts, v) Reparieren von Kommunikationsfehlern (und Aufbauen von Vertrauen), damit ein Benutzer einen Versprecher korrigieren und Übergänge signalisieren kann. Die regelbasierte Engine ist dafür konfiguriert, linguistisch motivierte Regeln für jede Mikrointeraktion zu implementieren.
Das Kl-Managermodul 106 benutzt die regelbasierte Engine zu Konversationsintelligenz, die dieselben über das Wort hinausgehenden Informationen nutzt, die SenSay (STAR-Sprachanalytikplattform) zur Emotionserkennung, zum Extrahieren von Konversations-Cues, benutzt. In einer Ausführungsform zielt das Design auf die Modellierung nur einiger häufiger Konversationsphänomene ab, die einen großen Einfluss auf eine VDA-Benutzererfahrung haben.
Das KI-Managermodul 106 kann einen vokalen Mechanismus wie z. B. einen kurzen und schnellen Backchannel 1) eines Wortausdrucks und/oder 2) einer nicht-lexikalischen Äußerung benutzen, während ein Benutzer mit dem Rederecht an der Reihe ist, in Dialogbereichen wie z. B. i) Behalten des Rederechts, um beliebige A) einer Quittierung, B) eines Missverständnisses und/oder C) einer Infragestellung des Verständnisses dessen, was der Benutzer gegenwärtig vermittelt, anzugeben, ohne dabei zu versuchen, dem Benutzer offen das Rederecht wegzunehmen, und ii) Konversationsgrundlagenbildung, um ein gegenseitiges Verständnis des aktuellen diskutierten Themas aufzubauen.
Das KI-Managermodul 106 hat eine regelbasierte Engine zu Konversationsintelligenz, damit der VDA menschliche Konversations-Cues versteht und generiert. Die Konversationsintelligenz erlaubt dem VDA, hochentwickelte Konversationsmechanismen zu benutzen. Die Konversationsintelligenz erlaubt dem VDA die Benutzung von linguistischem Wissen, neuen Informationen, die über bloße Worte hinausgehen, wodurch die wirkliche Komplexität der Interaktion widergespiegelt wird. Das KI-Managermodul 106 erlaubt dem VDA, i) flüssige Abwechslungen zu benutzen, ii) Backchannel-Linguistik zu erkennen, iii) auf Backchannels zu warten, iv) Rederecht-Ergreifungen zu erkennen, um das Rederecht abzutreten und v) den Benutzer die Listenpräsentation spontan ändern zu lassen.
Die regelbasierte Engine hat Regeln zum Analysieren und Vornehmen von Bestimmungen zu zwei oder mehr Konversations-Cues von i) nicht-lexikalischen Elementen, ii) Stimmlage gesprochener Worte, iii) Prosodie gesprochener Worte und iv) grammatischer Vollständigkeit der Satzsyntax im Redefluss des Benutzers und ob eine Äußerung während des Zeitrahmens zu generieren ist, wenn der Benutzer weiterhin das Rederecht hat, für zumindest eines von 1) Anfordern zusätzlicher Informationen vom Benutzer, 2) Signalisieren an den Benutzer, das Rederecht zu behalten und weiterzusprechen, oder 3) Anzeigen, dass der VDA den Wunsch hat, das Rederecht zu ergreifen; im Gegensatz zum reinen Warten auf eine Pause von fester Zeitdauer und zur anschließenden Annahme, dass der Benutzer das Rederecht abgetreten hat.
Das Kl-Managermodul 106 kooperiert mit der regelbasierten Engine, um (zwei oder mehr) Regeln für eine Mikrointeraktion zum Behalten des Rederechts anzuwenden, wie folgt. Jede Mikrointeraktion bei Konversationsintelligenz-Phänomenen kann multiple Dialogwege für multiple Bedingungen aufweisen. Exemplarischer Pseudocode wird für linguistisch motivierte Mikrointeraktionen, die Konversationsintelligenz-Phänomene umfassen, dargeboten.
Mikrointeraktion: Wann ein Backchannel zu äußern ist, wenn der Benutzer weiterhin das Rederecht hat
Die regelbasierte Engine kann Regeln aufweisen, die bewirken, dass das KI-Managermodul 106 angemessen reagiert, d. h. wann ein Backchannel zu äußern ist, wenn der Benutzer weiterhin das Rederecht hat.
Das Kl-Managermodul 106 empfängt Eingaben zum Auswerten i) des Tonfalls, ii) des Timings, iii) von Äußerungen, iv) Übergangsworten und v) anderen menschenähnlichen Cues eines Benutzers, die einen Übergang im Redefluss eines Benutzers zum Übernehmen, Ergreifen oder Abtreten des Rederechts zwischen dem Benutzer und dem VDA signalisieren.
Auf Basis der Prosodie, Stimmlage, fehlender Übergangsworte und fehlender sonstiger menschenähnlicher Cues, die einen Übergang signalisieren, erfolgt eine Bestimmung, dass der Benutzer beabsichtigt, das Rederecht zu behalten, aber einen oder mehrere abgeschlossene Gedanken vermittelt hat. Das Text-zu-Sprache-Modul 112 verkündet eine Backchannel-Äußerung, um beliebige i) eines Verstehens, ii) einer Korrektur, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss während eines Zeitrahmens vermittelt werden, wenn der Benutzer weiterhin das Rederecht hat, zu signalisieren.
Mikrointeraktion: Benutzer hat seine(n) Äußerung/Gedanken nicht abgeschlossen
Die regelbasierte Engine kann Regeln haben, die bewirken, dass das KI-Managermodul 106 angemessen reagiert, wenn der Benutzer seine(n) Äußerung/Gedanken nicht abgeschlossen hat, wenn der Benutzer pausiert hat, mittels

i) Auslöser: Deutet die Sprechaktivitätserkennung an, dass der Benutzer aufgehört hat zu sprechen?
ii) Ist der Satz oder sonstige linguistische Gedanke syntaktisch vollständig oder unvollständig?
iii) Bestimmen dessen, ob der Benutzer paralinguistisch das Rederecht hat. Beispielsweise prüfen, ob der Benutzer das Rederecht hat, mittels Prosodie (z. B. prosodischer End-Pointer geäußert? oder mit Stimmlage?)
iv) Außerdem Bestimmen dessen, ob der Benutzer das Rederecht lexikalisch oder mit nicht-lexikalischen Ereignissen hat (z. B. Inhalieren, lexikalische oder nicht-lexikalische Einheit geäußert? Klacken mit den Zähnen?)
v) Wenn keine von diesen erkannt werden und eine feste Zeitdauer ohne Sprache aufgetreten ist, dann bestimmen, dass der Benutzer das Rederecht abgegeben hat.

Die regelbasierte Engine hat Regeln zum Analysieren und Vornehmen von Bestimmungen zum angemessenen Reagieren, wenn der Benutzer seine Äußerung nicht abgeschlossen hat, selbst wenn er pausiert hat.
Mögliche Maßnahmen:
Wenn der Benutzer prosodisch das Rederecht hat, dann:

• Wenn es noch kein semantischer Inhalt gibt und/oder die Benutzeräußerung unvollständig ist, dann die Wartezeit auf lange feste Einstellung festlegen und dann das Rederecht übernehmen,
• Ansonsten: Wartezeit auf kurze feste Einstellung festlegen und Backchannel ausgeben.

Parallel dazu bestimmen, ob die Benutzeräußerung eine Aussage, eine Frage oder eine unvollständige Äußerung war. Als Nächstes, wenn noch über die festgelegte Wartezeit hinaus gewartet wird, dann einen Backchannel erzeugen, der angemessen ist für i) eine Aussage (z. B. „okay“) oder ii) eine unvollständige Äußerung (z. B. „mm-hmm“) oder iii) eine Frage mit Stimmlage (z. B. Frage - „Habe ich recht?“, Backchannel - „Selbstverständlich“), die alle versuchen, zusätzliche Informationen vom Benutzer anzuregen und anzufordern.
Parallel dazu bestimmen, ob der Benutzer lexikalisch oder mit nicht-lexikalischer Einheit das Rederecht hat. Wenn ja, die Wartezeit auf die lange feste Einstellung festlegen. Wenn nach dem Timer immer noch gewartet wird, einen angemessenen Backchannel wie z. B. „mm-hmm“ erzeugen.
Als Nächstes bestimmen, ob der Benutzer das Rederecht als Antwort auf den anfänglichen angemessenen, vom VDA ausgegebenen Backchannel aufgegeben hat, und wenn als aufgegeben bestimmt, dann dazu übergehen, dass der VDA das Rederecht übernimmt und einigen syntaktisch vollständigen Inhalt ausgibt, während der VDA an der Reihe ist, der für das Thema des letzten vollständigen Gedankens des Benutzers relevant ist.
Mikrointeraktion: Beispielfall einer Konversationsgrundlage - Benutzer-Selbstkorrektur
Die regelbasierte Engine kann Regeln haben, die bewirken, dass das KI-Managermodul 106 eine Konversationsgrundlage aufbaut. Ein Beispiel für eine Benutzer-Selbstkorrektur veranschaulicht die benutzten Prinzipien. Selbstkorrektur kann einen Versprecher oder falsche Aussprache beinhalten. Beispielsweise änderte der Benutzer seine Meinung dahingehend, was er zu sagen plante, oder weitet seine Idee aus.
Die regelbasierte Engine kann Regeln haben, die bewirken, dass das KI-Managermodul 106 eine Benutzer-Selbstkorrektur identifiziert durch i) Erkennen, wann die Bedingung existiert, ii) Bestimmen eines Vertrauensniveaus dahingehend, was der Benutzer zu korrigieren beabsichtigte, als der Benutzer eine Benutzer-Selbstkorrektur äußerte, und iii) Ergreifen einer Maßnahme zum Aufbau eines gegenseitigen Verstehens. Wenn das Vertrauensniveau dahingehend, was der Benutzer zu korrigieren beabsichtigte, unterhalb eines vom Benutzer festgelegten Schwellenbetrags liegt, dann diktieren die Regeln welche Maßnahme im Besonderen ergreifen soll, um die Konversationsgrundlage wiederherzustellen. Die Regeln bauen die Konversationsgrundlage auf, um ein gegenseitiges Verstehen zwischen dem Benutzer und dem VDA dadurch herbeizuführen, dass die Maßnahmen ergriffen werden, z. B. Stellen einer oder mehrerer Fragen und/oder Vornehmen von Äußerungen mit Relevanz für das verfolgte Thema, integriert mit Abschnitten des letzten Kommunikationsaustauschs zwischen dem VDA und dem Benutzer.
Ein Beispiel für eine Benutzer-Selbstkorrektur kann folgendermaßen lauten. Der Benutzer unterhält sich und sagt aus „Der erste Schritt, ich meine der zweite, sollte ... sein“.
Das verfolgte Thema wird vom Dialogmanager-Modul 108 verfolgt. Das Dialogmanager-Modul 108 kooperiert mit dem KI-Managermodul 106, um zu identifizieren, wann die Bedingung eines fehlenden gegenseitigen Verstehens existiert, z. B. Benutzer-Selbstkorrektur. Das KI-Managermodul 106 kann das Dialogmanager-Modul 108 und andere Module referenzieren, um das Vertrauensniveau dahingehend, was der Benutzer zu korrigieren beabsichtigte, zu bestimmen. Somit kann das Dialogmanager-Modul 108, das mit dem KI-Managermodul 106 kooperiert, identifizieren/erkennen, wann ein fehlendes gegenseitiges Verstehen als Bedingung existiert, z. B. Benutzer-Selbstkorrektur, und dann kann das KI-Managermodul 106 ein Vertrauensniveau dahingehend, was der Benutzer zu korrigieren beabsichtigte, bestimmen. Das KI-Managermodul 106 kann das Vertrauensniveau dahingehend, was der Benutzer zu korrigieren beabsichtigte, bestimmen, um auszuwählen, welche Maßnahme zu ergreifen ist, i) um einen Backchannel oder andere schnelle Worte zur Untermauerung des eigentlichen angesprochenen Punkts auszugeben, oder ii) das Rederecht zu übernehmen, um ein gegenseitiges Verstehen aufzubauen.
Dementsprechend ergreift das KI-Managermodul 106 eine von ein paar möglichen Maßnahmen zum Aufbau der Konversationsgrundlage. Das KI-Managermodul 106 erteilt Instruktionen, um die möglichen Maßnahmen zu erstellen, wie z. B. einen Backchannel, eine Korrektur, eine Frage oder eine Aussage, je nach einem Vertrauensniveau des Verständnisses.
Der VDA kann i) einen Backchannel mit einem fragenden Tonfall äußern, ii) einige Worte äußern, um erneut festzustellen, welches Wort er wirklich sagen wollte, oder iii) das Rederecht übernehmen und mit einer fragenden Stimme aussagen, worin nach Meinung des KI-Managermoduls 106 das aktuelle Thema besteht. Der VDA könnte i) einen Backchannel mit einem fragenden Tonfall äußern, wie z. B. „Hmmm?“, um den Benutzer aufzufordern, positiv auszusagen, worin die Korrektur besteht. Der VDA könnte stattdessen ii) einige Worte äußern, wie z. B. „Okay, der zweite Schritt.“ In einem anderen Beispiel kann der VDA das Rederecht übernehmen und in diesem Fall fragen, welches Wort wirklich gemeint war, „Sorry, meinten Sie einen ersten Schritt, einen zweiten Schritt oder etwas Anderes?“
Abermals bestimmt, im Beispielfall einer Benutzer-Selbstkorrektur, wenn das KI-Managermodul 106 erkennt, dass der Benutzer die Selbstkorrektur einer Äußerung vorgenommen hat, das KI-Managermodul 106 dann ein Vertrauensniveau dahingehend, was der Benutzer zu korrigieren beabsichtigte. Nach Referenzieren des Dialogmanager-Moduls 108 und anderer Module bestimmt das KI-Managermodul 106 das Vertrauensniveau dahingehend, was der Benutzer zu korrigieren beabsichtigte. Wenn ein hohes Vertrauensniveau (z. B. >90 %) darin existiert, dass die Korrektur vom VDA verstanden wird, dann gibt das KI-Managermodul 106 einen schnellen Backchannel oder ein schnelles bestätigendes Wort/Satzglied unter Einbeziehung von Abschnitten des aktuellen Kommunikationsaustauschs - „Ja, der zweite Schritt“ - aus.
Wenn jedoch ein niedriges Vertrauensniveau (z. B. >40 %) existiert, dass die Korrektur vom VDA verstanden wird, dann kann das KI-Managermodul 106 einige Worte oder Töne zur Übernahme des Rederechts ausgeben. Das KI-Managermodul 106 und das natürliche Sprachgenerierungsmodul 110 generieren einen Satz zum Vermitteln 1) dessen, worin das aktuelle Verständnis des KI-Managermoduls besteht/Bestätigen dessen, was, nach Verständnis des KI-Managermoduls, der Benutzer meinte und 2) was der Benutzer auszusagen beabsichtigte.
Nachdem der VDA seine Antwort ausgab, ergreift der VDA dann eine nachfolgende Reihe von Maßnahmen. Das KI-Managermodul 106 wartet auf eine Antwort vom Benutzer. Wenn der Benutzer mit einer positiven Bestätigung erwidert (explizites „Grounding“ hat sich ereignet und diese Korrektur ist abgeschlossen), dann antwortet das KI-Managermodul 106 mit einem bestätigenden Backchannel. Wenn der Benutzer die Konversation mit neuen Informationen fortsetzt (implizites „Grounding“, dass die Korrektur abgeschlossen ist), gibt das KI-Managermodul 106 jene Informationen an das Dialogmanager-Modul 108 weiter. Wenn eine zusätzliche Korrektur nötig ist, schreitet das KI-Managermodul 106 zu den vorherigen Informationen, die möglicherweise korrekturbedürftig sind, zurück.
Außerdem benutzt das KI-Managermodul 106 die regelbasierte Engine zum Analysieren und Vornehmen einer Bestimmung zu einem Fall, in dem der Benutzer einen Versprecher oder eine falsche Aussprache seinerseits korrigiert, und zum anschließenden Ausgleichen der Korrektur des Benutzers, wenn interpretiert wird, was der Benutzer mit seiner verbalen Kommunikation zu vermitteln versucht. Der VDA kann ein Muster davon speichern, wie der Benutzer sich korrigiert, und welcher Mechanismus zum Aufbau eines gegenseitigen Verstehens am besten funktioniert. Das KI-Managermodul 106 aktualisiert dementsprechend auch die/das systeminterne Darstellung/Verstehen.
Das KI-Managermodul 106 kann eine handschriftliche Grammatik oder einen statistisch basierten Regelsatz benutzen, wodurch Muster wie z. B. „nicht X, Y“ (Betonung auf Y, möglicherweise auch auf X) erkannt werden.
Mikrointeraktion: Aussprachebestätigung durch den VDA
Die regelbasierte Engine hat Regeln zum Analysieren und Vornehmen von Bestimmungen zu einer Bestätigung einer Aussprache durch den VDA.
Auslöser: Das TTS-Modul 112 teilt dem KI-Managermodul 106 mit, dass es sich der korrekten Aussprache eines Worts, das es erzeugen muss, nicht sicher ist.
Maßnahme/Regel:
Das TTS-Modul 112 anweisen, eine Vokalisation jenes Worts mit Fragenintonation, verlangsamter Sprechgeschwindigkeit und einer folgenden Pause zu erzeugen und dann auf eine von zwei Weisen fortzufahren.
Wenn der Benutzer die Aussprache korrigiert, dann die folgenden Schritte ausführen:

Quittierung erzeugen, einschließlich Wiederholung der letzten Aussprache; und
Speichern der Aussprache zur künftigen Verwendung durch das TTS-Modul 112.

Die Ausgabe fortsetzen. Wenn der Benutzer die Aussprache lediglich mit „Ja“ bestätigt oder die Äußerung von Inhalten fortsetzt und nicht versucht, die Aussprache zu korrigieren, dann aktualisieren und ein höheres Vertrauen in jene Aussprache vom TTS-Modul 112 speichern lassen.
Mikrointeraktion A1: Eine lange Liste von Elementen und/oder eine komplexe Liste von Elementen
Die regelbasierte Engine kann Regeln haben, die bewirken, dass das Kl-Managermodul 106 [festlegt], wie das VDA eine lange Liste von Elementen und/oder komplexen Informationen an einen Benutzer übermitteln sollte. Das KI-Managermodul 106 tauscht Eingaben und Ausgaben mit einem natürlichen Sprachgenerierungsmodul 110 und einem Text-zu-Sprache-Modul 112 aus, zum Generieren der menschlichen Konversations-Cues vom VDA zum Benutzer, die prosodische Konversations-Cues für den Fluss und Austausch von menschlicher Kommunikation zwischen dem Benutzer und dem VDA benutzen.
Der VDA kann eine lange Liste von Informationen und/oder komplexen Informationen vermitteln, indem diese Informationen in einzelne Teile aufgebrochen werden, die durch absichtliche Pausen getrennt sind, damit jedes einzelne Teil ausreichend nachvollziehbar ist. Die gezielt eingefügten Pausen helfen Menschen beim Nachvollziehen, wenn eine lange Liste oder ein komplexer Satz von Informationen vermittelt wird.
Wenn das KI-Managermodul 106 eine lange Liste von zu vermittelnden Elementen/komplexen Informationen hat

A) Ausgeben eine kurze, einfache Voranstellung (z. B. „sicher“, „sicher, es gibt ein paar davon“)
A1) Bis zum vorletzten Element der Liste
i) Voranstellen einen Diskursmarker (z. B. „es gibt“, „dann habe ich“)
ii) Anstieg/Plateau der Stimmlage am Ende jedes Elements unter Verwendung des TTS generieren
iii) Timer auf Pause setzen, bis zu eine festgelegte Zeitlang nach jedem Element
- Pause nach erstem Listenelement kann länger sein, um dem Benutzer einen Backchannel zu entlocken und dem Benutzer anzuzeigen, dass Backchannelling möglich ist
iv) Bei Benutzer-Backchannelling innerhalb des Timerlimits
- Nachverfolgen, wie lange der Benutzer für das Backchannelling brauchte; wenn eher lange, Geschwindigkeit der Informationsausgabe aus dem Text-zu-Sprache-Modul 112 bei künftigen Elementen vermindern
- Nicht mehr warten und mit nächstem Listenelement weitermachen

v) Wenn der Benutzer etwas Anderes als einen Backchannel ausspricht, bestimmen, welcher Sprachkategorie er angehört
- wenn ein Rederechtinhaber
  - Pausieren für weitere Eingabe vom Benutzer
- wenn ein Listennavigationsbefehl (z. B. „wiederholen“, „wie war doch gleich der erste?“ oder Filterwunsch (z. B. „Ich ordne an, dass es weniger als $200 ist“))
  - Element wiederholen, Liste navigieren oder Filterung/Beschränkungen hinzufügen
- ansonsten eine vollentwickelte Äußerung
  - An Dialogmanager weiterleiten

vi) Wenn der Benutzer nicht antwortet
- Warten, bis Timer abläuft, und mit nächstem Listenelement weitermachen
B) Letztem Element „und“ voranstellen und fallende Stimmlage am Ende des letzten Elements generieren.

Mikrointeraktion A2: Eine lange Liste von Elementen und/oder eine komplexe Liste von Elementen
Als Nächstes, unter Verwendung eines ähnlichen Satzes von Regeln, lässt die regelbasierte Engine den Benutzer die Listenpräsentation spontan ändern. Das KI-Managermodul 106 mit einem Detektor horcht, um zu hören, wann vom Benutzer versucht wird, eine lange Liste von Informationen zu vermitteln, um das Timing zu steuern, das i) einer Person, die eine lange Liste von Informationen hört, genug Zeit lässt, jedes Element in jener Liste, das zu sprechen und/oder stückweise zu verdauen ist, zu verarbeiten. Man beachte, dass das KI-Managermodul 106 eine Eingabe aus einem Detektor hat, um frühe Unterbrechung seitens des VDA zu verhindern, wenn der Benutzer das Rederecht hat. Die regelbasierte Engine ist konfiguriert zum Verwenden von Regeln, um zu entscheiden, wann der Benutzer lediglich vorübergehend pausiert, aber noch nicht die Gesamtheit eines Punkts, den der Benutzer zu vermitteln versucht, vermittelt hat.
Somit kann die regelbasierte Engine Regeln haben, die bewirken, dass das KI-Managermodul 106 bestimmt, ob der Benutzer eine lange Liste von Elementen und/oder eine komplexe Liste von Elementen übermittelt, um zu vermitteln, wann lange Pausen im Redefluss eines Benutzers erkannt werden und/oder eine Veränderung der Stimmlage nach einem letzten Element der Liste ausgedrückt wird.
A) Bestimmen, ob der Sprecher Pausen zwischen Sätzen von Informationen einfügt, ohne das Rederecht abtreten zu wollen.
Nachprüfen, ob der Benutzer Folgendes vermittelt:

A1) Kurze, einfache vorangestellte Worte (z. B. „sicher“, „sicher, es gibt ein paar davon“), und dann
A2) Bis zum vorletzten Element der Liste:
i) Der Benutzer kann Elementen eine Trägerphrase voranstellen (z. B. „es gibt“, „dann habe ich“);
ii) Der Benutzer kann ein(en) Anstieg/Plateau der Stimmlage am Ende jedes Elements generieren;
iii) Timer auf Prüfung auf eine Pause setzen, bis zu eine festgelegte Zeitlang nach jedem Element
- nach erstem Listenelement einen Backchannel zum Benutzer generieren, um zusätzliche Informationen anzuregen
iv) Wenn der Benutzer mehr Elemente/Informationen innerhalb des Timerlimits gibt
- Nachverfolgen, wie lange der Benutzer für das Geben der Elemente/Informationen brauchte;
v) Wenn der Benutzer etwas Anderes als mehr Elemente/Informationen zum aktuellen Thema ausspricht, bestimmen, welcher Sprachkategorie er angehört
- wenn ein Rederechtinhaber
  - Pausieren für weitere Eingabe vom Benutzer
- wenn etwas Anderes, Konversationsgrundlage aufbauen

An Dialogmanager weiterleiten
B) Nachprüfen, ob der Benutzer dem letzten Element einen Indikator wie „und“ voranstellt und/oder fallende Stimmlage am Ende des letzten Elements generierte. Nachprüfen, ob die Liste von Elementen vollständig zu sein scheint, unter Verwendung eines Backchannels - wie z. B. sonst noch was?
Mikrointeraktion: Backchannel-Äußerung mit Stimmlage, um anzuzeigen, dass der VDA den Wunsch hat, das Rederecht zu ergreifen und/oder das Rederecht zu behalten
Die regelbasierte Engine kann Regeln haben, die bewirken, dass das KI-Managermodul 106 eine Backchannel-Äußerung mit Stimmlage generiert, um anzuzeigen, dass der VDA den Wunsch hat, das Rederecht zu ergreifen und/oder das Rederecht zu behalten.
Das Kl-Managermodul 106 kann mit einem automatischen audioverarbeitenden Modul 102, einem natürlichen Sprachgenerator-Modul 110 und dem Text-zu-Sprache-Modul 112 kooperieren, um einen Backchannel mit einer Stimmlage zu äußern, um Bedeutung über den reinen Backchannel selbst hinaus zu vermitteln. Das KI-Managermodul 106 hat einen Eingang zur Entgegennahme von Informationen darüber, wann der Benutzer spricht, und dann ist die regelbasierte Engine konfiguriert zum Anwenden von Regeln dafür, dass der KI-Manager bestimmt, wann das natürliche Sprachgenerator-Modul 110 anzuweisen ist, den Text für folgenden Konversations-Cue zu generieren: 1) die Backchannel-Äußerung, 2) die Benutzung einer Stimmlage in einer Antwort mit markierten Annotationen zum Text, und 3) eine beliebige Kombination dieser beiden, um anzuzeigen, dass der VDA noch nicht das Rederecht abgetreten hatte, als der Benutzer zu sprechen begann und die Antwort des VDAs an den Benutzer unterbrach. Das KI-Managermodul 106 kooperiert mit dem natürlichen Sprachgenerator-Modul 110 und dem Text-zu-Sprache-Modul 112, um, über einen Lautsprecher, folgenden Konversations-Cue zu äußern: 1) die Backchannel-Äußerung/Expression wie z. B. „hm“ und/oder 2) die Benutzung einer Stimmlage in einer Antwort, wie z. B. Erhöhen der Stimmlage usw., um anzuzeigen, dass der VDA noch nicht das Rederecht abgetreten hatte, als der Benutzer den VDA unterbrach.
Mikrointeraktion: Handhaben von Rederechtkollisionen, wenn der Benutzer und der VDA binnen ,X' Millisekunden nacheinander, nach einer Pause in einer aktuellen Konversation, zu sprechen beginnen
Die regelbasierte Engine kann Regeln haben, die bewirken, dass das KI-Managermodul 106 eine Rederechtkollision zwischen einem Benutzer und dem VDA handhabt, wenn beide mit einem Satz (über einen Backchannel hinaus), binnen eines kurzen Zeitraums nach einer Pause in einer aktuellen Konversation, zu sprechen beginnen. Man beachte, dass Rederechtkollisionen in vielen Situationen vorkommen können und je nach dem Kontext unterschiedlich gehandhabt werden.
Auslöser: der Benutzer und der VDA beginnen binnen X Millisekunden nacheinander nach einer Pause, wie z. B. 0,50 Sekunden, zu sprechen, und beide Äußerungen haben semantischen Inhalt.
Maßnahmen:
Das Kl-Managermodul 106 bestimmt eine Überlappungslänge, während sowohl der VDA als auch der Benutzer zu sprechen versuchen. Gab der Benutzer schnell das Rederecht auf, indem er aufhörte zu sprechen oder sonst wie positiv das Aufgeben des Rederechts vermittelte? Das KI-Managermodul 106 bestimmt einen Dialogzustand.
Das Kl-Managermodul 106 bestimmt, was während der Pause geschah, und dann, was nach der Pause geschieht:

i) Wenn der Benutzer weiterspricht, dann hört der VDA auf, zu sprechen, und lässt den Benutzer weitermachen.
ii) Wenn der Benutzer aufhört, zu sprechen, sagt der VDA „sorry, nur zu“ und wartet darauf, dass der Benutzer weitermacht.

Mikrointeraktion: Abwarten-Anweisung
Die regelbasierte Engine kann Regeln haben, die bewirken, dass das KI-Managermodul 106 eine „Abwarten“-Anweisung handhabt.
Auslöser: das KI-Managermodul 106 erkennt Anweisung des Benutzers an den VDA, ,abzuwarten' oder sonst wie das Sprechen zu unterbrechen.
Maßnahmen:
Das Kl-Managermodul 106 kooperiert mit dem natürlichen Sprachgenerator-Modul 110 und dem Text-zu-Sprache-Modul 112, um eine Quittierung (z. B. „sicher“, „sicher, lassen Sie mich wissen, wenn Sie bereit sind“ usw.) zu generieren.
Das Kl-Managermodul 106 kooperiert mit dem automatisierten Spracherkennungsmodul 102 und dem Modul zum Verstehen gesprochener Sprache 104, um Funktionen zur Unterscheidung von systemgelenkter/nicht systemgelenkter Rede zu ermöglichen.
Wenn Rede zum Abwarten oder sonstigen Pausieren (wahrscheinlich) auf den VDA gerichtet ist, dann anweist die regelbasierte Engine:

a) Bestimmung dessen, ob die Sprache semantischen Inhalt hat
- Wenn ja, hat die Sprache semantischen Inhalt, zum regulären Dialogsystem übergehen, vom Dialogmanagement-Modul 108 angewiesen.
- Wenn die Sprache keinen semantischen Inhalt hat, einen Timer starten. Wenn ein vom Systementwickler spezifizierter Zeitraum ohne weitere Eingabe vom Benutzer verstreicht, generiert das Konversationsintelligenz-Managermodul 106 Instruktionen, um zu bestätigen, dass der Benutzer das Sprechen mit dem VDA wiederaufgenommen hat („sind Sie bereit?“).
b) Bestimmung des Dialogzustands
- Wenn der VDA sprach, kann das Konversationsintelligenz-Managermodul 106 Instruktionen generieren, um zusammenzufassen/zu wiederholen, was er zu vermitteln versuchte, als die Abwarten-Instruktion vom Benutzer hereinkam, und/oder andere Maßnahmen ergreifen, einschließlich:
- Wenn der Benutzer mitten im Redefluss war, erneut mit dem auffordern, was der VDA bislang weiß.
- Wenn bislang wenige Informationen zum aktuellen Thema vermittelt wurden, davon ausgehen, dass sich der Benutzer erinnert, und den Schritt der Zusammenfassung/Wiederholung dessen überspringen, was er zu vermitteln versuchte, als die Abwarten-Instruktion vom Benutzer hereinkam.

Default und wenn nicht sicher, ob sich der Benutzer an den Zustand der bislang vermittelten Informationen (Grounding) erinnert oder ob der Dialogzustand schnell überprüft wird, den Zustand des Dialogs mit dem Benutzer überprüfen und den Schritt der Zusammenfassung/Wiederholung dessen durchführen, was der VDA zu vermitteln versuchte, als die Abwarten-Instruktion vom Benutzer hereinkam.
Mehr Einzelheiten
Prosodie-Analyse
In einer Ausführungsform kann der VDA eine Bestimmung zu Prosodie wie folgt vornehmen. Der VDA findet Endpunkte in der Rede, durch Benutzen von Informationen, die in einem Prosodiemodell der Rede enthalten sind. Prosodie bezeichnet die Weise, in der ein Sprecher das Timing, die Stimmlage und Lautheit von Phons, Silben, Worten und Phrasen moduliert, um bestimmte Bedeutungsaspekte zu vermitteln; informell ausgedrückt beinhaltet Prosodie das, was als „Rhythmus“ und „Melodie“ der Rede wahrgenommen wird. Weil Benutzer sich der Prosodie bedienen, um Nichtwort-Einheiten der Rede an Zuhörer zu vermitteln, führen das Verfahren und die Vorrichtung eine Endpunkterkennung durch, indem die relevanten prosodischen Eigenschaften der Rede extrahiert und interpretiert werden.
Die Eingabe eines Redesignals in den VDA wird als Redewellenform erfasst, die mit vom Benutzer gesprochenen Äußerungen assoziiert ist. Das Rededaten verarbeitende Subsystem produziert Rededaten, die einer Audioeingabe entsprechen, die aus einem Menschen in den Redewellenformen erfasst wurde. Ein akustisches Frontend berechnet Nichtwort-Analyse betreffend das Timing, die Stimmlage und die Lautheit von Phons und Phrasen, um Prosodie über Rahmen der Redewellenform zu vermitteln. Das akustische Frontend beinhaltet eine Mehrzahl von Analytik-Engines, die jeweils eine Mehrzahl von Algorithmen umfassen, die für verschiedene Arten von Benutzerzustandsanalytik konfiguriert sind, einschließlich des Timings, der Stimmlage und der Lautheit von Phons und Phrasen, um Prosodie über Rahmen der Redewellenform zu vermitteln. Der VDA berechnet und vergleicht die Daten aus den Rahmen der Redewellenform mit einer Datenbank und einem nachfolgenden Klassifizierungsmodul. Man beachte, dass jedes Muster des Redesignals verarbeitet wird, um das Endpunktsignal zu generieren, anschließend wird das nächste Muster verarbeitet. Das neue Muster wird benutzt, um das Endpunktsignal zu aktualisieren. Das akustische Frontend kann eine pausenanalytische Analytik-Engine, eine Dauermuster-Analytik-Engine, eine Lautheit-Analytik-Engine und eine Stimmlagenverarbeitende Analytik-Engine beinhalten. Jede dieser Analytik-Engines kann ausführbare Software aufweisen, die Algorithmen spezifisch zur Durchführung jener besonderen Funktion verwendet. Beispielsweise kann die Pausenanalytik-Engine einen konventionellen „Rede/keine Rede“-Algorithmus benutzen, der erkennt, wann eine Pause in der Rede vorkommt. Die Ausgabe ist ein binärer Wert, der angibt, ob das vorliegende Redesignalmuster ein Teil der Rede oder kein Teil der Rede ist. Diese Ausgabe- und Bestimmungsinformationen können benutzt werden, um einen Endpunkt zu identifizieren. Gleichermaßen analysiert die Dauermuster-Analytik-Engine, ob Phons mit Bezug auf durchschnittliche Phondauern für den Benutzer verlängert sind. Die Verlängerung von Phons ist indikativ dafür, dass der Benutzer das Sprechen nicht beendet hat. Die Ausgabe dieser Analytik-Engine kann ein binäres Signal sein (z. B. das Phon ist überdurchschnittlich lang, daher als Eins ausgegeben; ansonsten als Null ausgegeben) bzw. eine Probabilität, die die Wahrscheinlichkeit angibt, dass der Benutzer, angesichts der Phonlänge, das Sprechen beendet hat. Gleichermaßen kann die Stimmlagen verarbeitende Analytik-Engine benutzt werden, um gewisse Stimmlagenparameter aus dem Redesignal zu extrahieren, die dafür indikativ sind, dass der Benutzer eine Äußerung abgeschlossen hat. Die Stimmlagen verarbeitende Analytik-Engine extrahiert eine Stimmlagen-Grundfrequenz aus dem Redesignal und stylisiert „Stimmlagenbewegungen“ des Redesignals (d. h. verfolgt die Variationen der Stimmlage im Zeitverlauf). Innerhalb der Stimmlagen verarbeitenden Analytik-Engine wird eine Stimmlagenkontur als korrelierte Sequenz von Stimmlagenwerten generiert. Das Redesignal wird mit einer geeigneten Rate abgetastet, z. B. 8 kHz, 16 kHz und dergleichen. Die Stimmlagenparameter werden extrahiert und berechnet (modelliert). Die Sequenz kann in einem stückweisen linearen Modell oder in einem Polynom eines gegebenen Grads als Spline modelliert werden. Ein Stimmlagenbewegungsmodell kann aus der Stimmlagenkontur unter Verwendung eines endlichen Automaten oder eines stochastischen Markov-Modells erzeugt werden. Das Modell schätzt die Sequenz von Stimmlagenbewegungen. Die Stimmlagen verarbeitende Analytik-Engine extrahiert Stimmlagenmerkmale aus dem Modell an einem Punkt, wo die Stimmlagenmerkmale signalisieren, ob der Benutzer beabsichtigte, anzuhalten, zu pausieren, weiterzusprechen oder eine Frage zu stellen. Zu den Merkmalen zählen die Stimmlagenbewegungssteigung und die Stimmlagentranslation von einer Baseline-Stimmlage.
Nach dem Analysieren einer typischen Prosodie des Sprechers kann der VDA anhaltende Pausen zwischen abgeschlossenen Gedanken des Sprechers und unvollständigen Gedanken des Sprechers bestimmen.
Das Kl-Managermodul 106 kann eine anhaltende Pause in der Konversation erkennen, beispielsweise unter Verwendung eines Timers aus dem ASR, das an das KI-Managermodul 106 übermittelt wird. In Kombination hat das KI-Managermodul 106 die Regeln, die dargelegt sind, um zu verstehen, ob der Benutzer das Rederecht abgetreten hat oder lediglich anhaltende Pausen in seinen Redefluss einfügt, um zusätzliche Informationen zu vermitteln, einschließlich Sprechpausen, die zum besseren Vermitteln und Verstehen langer Listen von Informationen bzw. komplexer Information eingefügt werden, sowie Pausen, die zwischen zwei oder mehr Benutzeräußerungen eingefügt werden, sodass der Benutzer anfänglich unvollständig mit einer ersten Äußerung, gefolgt von einer kurzen Pause, und dann einer zweiten Äußerung antworten kann, um den Gedanken, den er bei jener Rede zu vermitteln versucht, abzuschließen.
Reinforcement Learning
Wie diskutiert kann das KI-Managermodul Regeln und Parameter zu Konversationsintelligenz für einen voicebasierten digitalen Assistenten (VDA) benutzen. Das KI-Managermodul hat einen oder mehrere Eingänge zur Entgegennahme von Informationen als die Parameter aus einem oder mehreren Modulen um Bestimmungen vorzunehmen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren menschenähnlicher Konversations-Cues, einschließlich zumindest Verstehen und/oder Generieren einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation, für zumindest eines von 1) Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA, und 2) Aufbauen einer Konversationsgrundlage, ohne das Rederecht zu übernehmen.
Das KI-Managermodul kann Reinforcement Learning benutzen, unter Verwendung der Regeln und der Parameter zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers. Wenn das KI-Managermodul entscheidet, die Backchannel-Äußerung zu generieren, dann ist das KI-Managermodul konfiguriert zum Generieren eines Befehls zum Ausgeben der Backchannel-Äußerung, um beliebige i) eines Verstehens, ii) einer Anforderung weiterer Informationen, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss des Benutzers vermittelt werden, zu signalisieren. Das KI-Managermodul kann Reinforcement Learning und zumindest einen Parameter eines emotionalen Zustands des Benutzers als Belohnungsfunktion für das Reinforcement Learning benutzen.
Disfluenzinformationen
Das Kl-Managermodul 106 ist konfiguriert zum Arbeiten mit i) einem automatischen audioverarbeitenden Modul 102 und/oder dem Modul zum Verstehen gesprochener Sprache 104, um die Disfluenzinformationen von Unterbrechungen in ansonsten flüssiger Rede des Benutzers zu erkennen, und dann ii) der regelbasierten Engine zur Anwendung von Regeln sowohl zum i) Feststellen der die Disfluenzinformationen verursachenden Unterbrechungen als auch ii) Ausgleichen der Disfluenzinformationen.
Das KI-Managermodul 106 hat eine Eingabe aus einem Disfluenzdetektor, um eine Mikrointeraktion zur Sprachreparatur auszulösen, um Disfluenzinformationen verschiedener Unterbrechungen von i) Worten und Sätzen, die inmitten der Äußerung abgeschnitten werden, und/oder ii) nicht-lexikalischen Vokabeln, die geäußert werden, während der Benutzer spricht und das Rederecht hat, zu erkennen. Das Modul zum Verstehen gesprochener Sprache 104 kann andeuten, wann ein aktueller Redefluss keinen abgeschlossenen Gedanken enthält. Das KI-Managermodul 106, das mit dem Modul zum Verstehen gesprochener Sprache 104 kooperiert, sucht nach grammatischer Vollständigkeit der Satzsyntax im vom Benutzer stammenden Redefluss. Wenn ein Benutzer anfänglich antwortet „Ja, das sieht gut aus, aber ... ‟, ist das KI-Managermodul 106 konfiguriert zum Verstehen, dass dies ein unvollständiger menschlicher Satz ist. Dann könnte der Benutzer anschließend, nach der langen Pause, „Ich bin nicht sicher am Dienstag, vielleicht Mittwoch!“ aussagen. Somit kann, wenn das KI-Managermodul 106 diesen anfänglichen Redefluss mit einem anschließenden Redefluss des Benutzers paart, dann möglicherweise ein grammatisch vollständiger Satz an das Modul zum Verstehen gesprochener Sprache 104 gesendet werden, um eine korrekte Interpretation der Rede des Benutzers zu erhalten, und ohne das Rederecht vom Benutzer wegzunehmen, bevor er vollständig das Konzept im Redefluss vermittelt, dass er versuchte, mit jenen beiden aufgebrochenen Phrasen zu vermitteln. Das KI-Managermodul 106 erlaubte, indem es nicht das Rederecht übernahm, [zwei] aufgebrochene Phrasen vom Benutzer, zum Abschließen seines Gedankens, äußern zu lassen. Das KI-Managermodul 106 beachtet auch den Tonfall, die Stimmlage und/oder Prosodie für die Phrase „vielleicht Mittwoch“. Das KI-Managermodul 106 wendet die Konversationsintelligenz an, um die beiden aufgebrochenen Sätze zu kombinieren, um sie vom SLU wiederaufbereiten zu lassen, und dann verstehen die Module die Absicht des Benutzers. Alles, was zuvor über die Reservierung ausgesagt wurde, war Okay, außer Dienstag als Anfangsdatum und dass stattdessen Mittwoch das Anfangsdatum sein sollte.
Zusätzliche Einzelheiten zum Dialogmanager-Modul
Das themenverstehende Eingabe-/Ausgabemodul im KI-Managermodul 106 ist konfiguriert zum Entgegennehmen und Verfolgen einer Themen-ID, die abgeleitet ist aus hierarchischen Klassifikatoren für Themen und Co-Clustering von verwandten Themen, zum korrekten Identifizieren eines Satzes von Themen, die in einer Freiform-Konversation zwischen dem Benutzer und dem Konversationsassistenten für Konversationsengagement-Plattform 100 diskutiert werden. Das themenverstehende Eingabe-/ Ausgabemodul hat eine Schnittstelle zum Arbeiten mit dem voicebasierten digitalen Assistenten, hierarchischen Klassifikator und der Co-Clustering-Pipeline zum Identifizieren des Themas und der Absicht hinsichtlich eines Themas. Das Informationen extrahierende und themenverstehende Eingabe-/ Ausgabemodul kann auch einen oder mehrere Links zu den Zustandsdaten aus der Pipeline des voicebasierten digitalen Assistenten (VDA) aufweisen. Das themenverstehende Eingabe-/Ausgabemodul verfolgt Eingaben aus der VDA-Pipeline einschließlich eines hierarchischen Klassifikators und eines Co-Clustering-Abschnitts der Pipeline zum Identifizieren des Themas, und liefert dies an das Dialogmanagement-Modul 108.
Das themenverstehende Eingabe-/Ausgabemodul erkennt und verfolgt Themen-ID zum korrekten Identifizieren des Satzes von Themen, die in der Freiform-Konversation (im Gegensatz zu einem strukturierten, menübaumartigen Dialog mit dem Benutzer) diskutiert werden. Das themenverstehende Eingabe-/Ausgabemodul kann die Themen-ID speichern. Die hierarchische Klassifikator- und Co-Clustering-Pipeline nutzt Deep Learning- (z. B. CNNs) Technologien einschließlich Co-Clustering- und hierarchischer Klassifikatoren zum Identifizieren des Themas.
Das Dialogmanager-Modul 108 kann konfiguriert sein zur Benutzung eines hybriden Ansatzes 1) einer regelbasierten Engine im Dialogmanager-Modul 108 sowie eines trainierten Maschinenlernmodell-Abschnitts zum Analysieren und Treffen von Entscheidungen zum Dialogzustand einschließlich der aktuellen Themenverfolgung für einen geeigneten Äußerungs- und Antwortzyklus.
Das Dialogmanager-Modul 108 ist konfiguriert zum Zuhören und/oder Stellen von Fragen, um zu bestimmen, ob es weiß, über welches Subjekt/Thema der Benutzer sprechen will, und dann, sobald in jenem Thema, welche Informationselemente man braucht, um Einzelheiten über jene Thematik zu extrahieren, zum Treffen einer endgültigen Entscheidung über die Diskussion'/,Auflösen der Diskussion'.
Gleichermaßen kann das KI-Managermodul 106 konfiguriert sein zur Benutzung eines hybriden Ansatzes 1) einer regelbasierten Engine im KI-Managermodul 106 sowie eines trainierten Maschinenlernmodell-Abschnitts zum Analysieren und Vornehmen von Entscheidungen zu den hierin diskutierten Konversationsintelligenzfragen.
Der Konversationsassistent für Konversationsengagement-Plattform 100 kann ein Satz von Software-Mikrodiensten sein, die mit einer regelbasierten Engine und einer hybriden Regeln plus Maschinenlernen unterliegenden Engine kooperieren, die Aufgaben oder Dienste für ein Individuum auf Basis verbaler Befehle unter Berücksichtigung menschlicher Konversations-Cues, die über lediglich die gesprochenen Worte hinausgehen, durchführen kann. Der VDA ist imstande, menschliche Rede einschließlich menschlicher Konversations-Cues, die über lediglich die gesprochenen Worte hinausgehen, zu interpretieren und mittels synthetisierter Stimmen zu antworten.
Man beachte, dass die Mikrodienste eine Variante des serviceorientierten-Architektur(SOA)-Stils sein können, der eine Anwendung als Sammlung von locker gekoppelten Diensten strukturiert. In der Mikrodienste-Architektur können die Dienste feinkörnig sein und sind die Protokolle leichtgewichtig. Ein Vorteil der Zerlegung einer Anwendung in verschiedene kleinere Dienste ist, dass dadurch die Modularität verbessert wird. Die Dienste in der Mikrodienste-Architektur (MSA) können über ein lokales Netzwerk unter Verwendung technologieagnostischer Protokolle wie z. B. HTTP kommunizieren.
Abermals verfolgt der Konversationsassistent für Konversationsengagement sowohl konversationelles Themenbewusstsein als auch Benutzerzustandsbewusstsein, um verlängerte Konversationen mit dem Benutzer zu kreieren. Die verlängerten Konversationen enthüllen Interessen, emotionalen Zustand und Gesundheit des Benutzers. Die verlängerten Konversationen könnten potenziell auch früh einsetzende Demenz und Einsamkeit bekämpfen.
2A-2C veranschaulichen ein Flussdiagramm einer Ausführungsform einer Konversationsengagement-Mikroserviceplattform, die ein Konversationsintelligenz(KI)-Managermodul enthält, das eine regelbasierte Engine zu Konversationsintelligenz für den Dialogfluss zwischen einem Benutzer und einem VDA aufweist.
In Schritt 202 hat ein voicebasierter digitaler Assistent (VDA) die Möglichkeit der Benutzung eines Konversationsintelligenz(KI)-Managermoduls mit einer regelbasierten Engine zu Konversationsintelligenz, zum Verarbeiten von Informationen aus einem oder mehreren Modulen und somit zum Veranlassen, dass Module Bestimmungen vornehmen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren der menschenähnlichen Konversations-Cues, einschließlich Verstehen und/oder Generieren einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation, für zumindest eines von 1) Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA oder 2) Aufbauen einer Konversationsgrundlage, ohne das Rederecht zu übernehmen. Der VDA kann auch das KI-Managermodul mit der regelbasierten Engine zu Konversationsintelligenz dazu benutzen, Informationen aus einem oder mehreren Modulen zu verarbeiten, zum Vornehmen von Bestimmungen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren der menschlichen Konversations-Cues, einschließlich einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation, für zumindest eines von Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA.
In Schritt 204 hat das KI-Managermodul die Möglichkeit der Benutzung der regelbasierten Engine zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers, um die Backchannel-Äußerung zu generieren, um beliebige i) eines Verstehens, ii) einer Korrektur, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss während eines Zeitrahmens vermittelt werden, wenn der Benutzer weiterhin das Rederecht hat, zu signalisieren.
In Schritt 206 benutzt das KI-Managermodul ein automatisches audioverarbeitendes Modul und ein Text-zu-Sprache-Modul mit dem KI-Managermodul. Das KI-Managermodul hat einen Eingang zur Entgegennahme von Informationen darüber, wann der Benutzer spricht, und dann ist die regelbasierte Engine konfiguriert zum Anwenden von Regeln, damit das KI-Managermodul bestimmen kann, wann das Text-zu-Sprache-Modul anzuweisen ist zum Generieren des Konversations-Cues 1) der Backchannel-Äußerung, 2) der Benutzung der Stimmlage in einer Antwort und 3) einer beliebigen Kombination dieser beiden, um anzuzeigen, dass der VDA noch nicht das Rederecht abgetreten hatte, als der Benutzer zu sprechen begann und die Antwort des VDAs an den Benutzer unterbrach.
In Schritt 208 besorgt die regelbasierte Engine das Analysieren und Vornehmen von Bestimmungen zu zwei oder mehr Konversations-Cues von i) nicht-lexikalischen Elementen (z. B. Worten, Klängen usw.), ii) Prosodie gesprochener Worte einschließlich Stimmlage und Timing, iii) grammatischer Vollständigkeit der Satzsyntax im Redefluss des Benutzers, iv) Pausendauer für eine festgelegte Zeitdauer und v) Grad der semantischen Beschränkungen der Äußerung eines Benutzers. Das KI-Managermodul kann, nach Vornehmen dieser Bestimmungen und Analyse, dann entscheiden, ob eine Äußerung zu generieren ist, für zumindest eines von 1) Anfordern zusätzlicher Informationen vom Benutzer, 2) Signalisieren der Zustimmung und des Verständnisses des VDAs, dass der Benutzer weiterhin das Rederecht hat, oder 3) Anzeigen, dass der VDA den Wunsch hat, das Rederecht zu ergreifen; im Gegensatz zum reinen Warten auf eine Pause von fester Zeitdauer und zur anschließenden Annahme, dass der Benutzer das Rederecht abgetreten hat. Das KI-Managermodul kann entscheiden, ob diese Äußerung während des Zeitrahmens, wenn der Benutzer weiterhin das Rederecht hat, zu generieren ist.
In Schritt 210 benutzt das KI-Managermodul einen prosodischen Analysator für eine prosodische Analyse zur Rede des Benutzers, wie z. B. einem Rhythmus des Redeflusses des Benutzers. Das KI-Managermodul nimmt Eingabedaten zur prosodischen Analyse aus einem automatischen audioverarbeitenden Modul entgegen. Der prosodische Detektor prüft anfänglich, um zu erkennen, ob irgendeine Sprechaktivität aus dem automatischen audioverarbeitenden Modul vorkommt, und dann die prosodische Analyse an einem Ende' und/oder ,während' einer Äußerung eines Benutzers unter Verwendung des prosodischen Detektors zum Bestimmen dessen anzuwenden, i) ob der Benutzer in der Tat das Rederecht abgetreten hat, oder ii) ob der Benutzer Pausen in seinen Redefluss einfügt, um zusätzliche Informationen zu vermitteln. Zu den zusätzlichen Informationen zählen können beliebige von 1) Sprechen mit Pausen, um dabei zu helfen, eine lange Liste von Informationen zu vermitteln und zu verstehen, 2) Sprechen mit Pausen zwischen zwei oder mehr Benutzeräußerungen, sodass der Benutzer anfänglich unvollständig mit einer ersten Äußerung antworten kann, gefolgt von einer Pause, und dann einer zweiten Äußerung, um einen Gedanken abzuschließen, den der Benutzer mit jener Sprechaktivität zu vermitteln versucht, sowie 3) Sprechen mit Pausen, um dem System einen Backchannel zu entlocken, sowie 4) einer beliebigen Kombination dieser drei.
In Schritt 212 benutzt das KI-Managermodul ein Dialogmanager-Modul, das bilateral mit einer Eingabe und einer Ausgabe mit dem KI-Managermodul verbunden ist, wobei das Dialogmanager-Modul konfiguriert ist zum Analysieren und Verfolgen zumindest eines Dialogzustands, einschließlich eines aktuellen Themas, für einen Äußerungs- und Antwortzyklus.
In Schritt 214 verdaut das KI-Managermodul Informationen aus zumindest einem Modul zum Verstehen gesprochener Sprache zu Mikrointeraktionen einschließlich i) eines Tonfalls oder einer Stimmlage, ii) Timing-Informationen, iii) einer Äußerung, iv) eines Übergangsworts und v) eines sonstigen menschlichen Cues, wodurch ein Übergang des Rederechts signalisiert wird, um zu bestimmen, wie in Bezug darauf vorzugehen ist, ob zumindest eines von Übernehmen, Ergreifen oder Abtreten des Rederechts zwischen dem Benutzer und dem VDA erfolgt.
In Schritt 216 benutzt das KI-Managermodul einen Konversationsgrundlagen-Detektor zum Bestimmen dessen, wann sich ein gegenseitiges Verstehen zwischen einem Benutzer und dem VDA nicht ergibt. Wenn das KI-Managermodul die Bestimmung vornimmt, dass sich das gegenseitige Verstehen nicht ergibt, dann kooperieren das KI-Managermodul, ein natürliches Sprachgenerierungsmodul und ein Text-zu-Sprache-Modul, um eine oder mehrere Äußerungen zu äußern, um das gegenseitige Verstehen wiederherzustellen. Die regelbasierte Engine benutzt Regeln, um zu entscheiden, wann sich das gegenseitige Verstehen zwischen dem Benutzer und dem VDA nicht ergibt.
In Schritt 218 benutzt das KI-Managermodul einen Disfluenzdetektor, um eine Mikrointeraktion zur Sprachreparatur auszulösen, um Disfluenzinformationen verschiedener Unterbrechungen von i) Worten und Sätzen, die inmitten der Äußerung abgeschnitten werden, und/oder ii) nicht-lexikalischen Vokabeln, die geäußert werden, während der Benutzer spricht und das Rederecht hat, zu erkennen. Das KI-Managermodul ist konfiguriert zum Arbeiten mit i) einem automatischen audioverarbeitenden Modul, um die Disfluenzinformationen in der Rede in ansonsten flüssiger Rede des Benutzers zu erkennen, und dann ii) der regelbasierten Engine, um Regeln zum Feststellen der Disfluenzinformationen anzuwenden und entweder i) die Disfluenzinformationen zur Sprachreparatur zu benutzen oder ii) eine Konversationsgrundlage zu bilden, um beim Benutzer zu bestätigen, dass das Verstehen des Systems korrekt ist, iii) oder beiden.
In Schritt 220 kooperiert das KI-Managermodul mit einem Modul zum Verstehen gesprochener Sprache zur Bereitstellung von Eingabeinformationen für eine Mikrointeraktion zum benutzerbezogenen Analysieren i) eines emotionalen Zustands während der Antwort, ii) eines akustischen Tons einer Äußerung, iii) von Prosodie, iv) etwaiger Diskursmarker sowie v) einer beliebigen Kombination von diesen, um die Haltung eines Benutzers anzugeben, die in dem vom Benutzer Gesagten vermittelt wird, aus den Eingabedaten. Das KI-Managermodul nimmt eine Bestimmung unter Berücksichtigung der emotionalen Antwort, des akustischen Tons der Äußerung oder der Diskursmarker aus dem Modul zum Verstehen gesprochener Sprache vor, um anschließend seine eigene Antwort auszugeben oder einen Zustand anzupassen und, beim Ausgeben seiner eigenen Antwort, unter Verwendung eines Text-zu-Sprache-Moduls, um 1) das Rederecht abzutreten, 2) dem Benutzer zusätzliche Informationen zu entlocken, 3) einen Dialogzustand zu ändern, um die Systemantwort auf den Benutzer zu ändern, oder 4) den Benutzer zu ermutigen, seine Gedanken auszudrücken oder zumindest zu fragen, ob der Benutzer irgendetwas vermitteln will.
In Schritt 222 benutzt das KI-Managermodul die regelbasierte Engine zum Analysieren auf einen und Vornehmen einer Bestimmung zu einem Fall, in dem der Benutzer einen Versprecher oder eine falsche Aussprache seinerseits korrigiert, und zum anschließenden Ausgleichen der Korrektur des Benutzers, wenn interpretiert wird, was der Benutzer mit seiner verbalen Kommunikation zu vermitteln versucht.
In Schritt 224 benutzt das KI-Managermodul Informationen über einen Weltkontext, mit dem der Benutzer interagiert, zur Unterstützung der Bestimmung dessen, wann der Benutzer gegenwärtig abgelenkt und minder fähig ist, Rede aus dem VDA zu verarbeiten.
Netzwerk
3 veranschaulicht ein Blockdiagramm einer Anzahl von elektronischen Systemen und Geräten, die in einer Netzwerkumgebung gemäß einer Ausführungsform des aktuellen Designs miteinander kommunizieren.
Die Netzwerkumgebung hat ein Kommunikationsnetzwerk 320, das Serverrechensysteme 304A bis 304B und zumindest ein oder mehrere Client-Rechensysteme 302A bis 302G verbindet. Wie dargestellt kann es viele Serverrechensysteme 304A bis 304B und viele Client-Rechensysteme 302A bis 302G geben, die über das Netzwerk 320, wobei es sich beispielsweise um das Internet handeln kann, miteinander verbunden sind. Man beachte, dass das Netzwerk 320 alternativ eines oder mehrere von folgenden sein oder beinhalten könnte: ein optisches Netzwerk, ein zelluläres Netzwerk, das Internet, ein LAN-Netzwerk, WAN-Netzwerk, Satellitenverbindung, Fasernetzwerk, Kabelnetzwerk oder eine Kombination von diesen und/oder anderen. Jedes Serverrechensystem 304A-304B kann Schaltungen und Software zum Kommunizieren mit den anderen Serverrechensystemen 304A bis 304B und den Client-Rechensystemen 302A bis 302G über das Netzwerk 320 aufweisen. Jedes Serverrechensystem 304A bis 304B kann mit einer oder mehreren Datenbanken 306A bis 306B assoziiert sein. Jeder Server 304A bis 304B kann einen Fall oder mehrere Fälle aufweisen, in denen ein virtueller Server auf jenem physischen Server läuft, und multiple virtuelle Fälle können von dem Design implementiert werden. Eine Firewall kann zwischen einem Client-Rechensystem, beispielsweise 302D, und dem Netzwerk 320 zum Schutz der Datenintegrität auf dem Client-Rechensystem 302D eingerichtet sein.
Ein Cloud-Provider-Service kann Anwendungssoftware in der Cloud installieren und betreiben, und Benutzer können auf den Softwareservice von den Client-Geräten aus zugreifen. Cloud-Benutzer, die eine Site in der Cloud haben, können die Cloud-Infrastruktur und -Plattform, wo die Anwendung läuft, möglicherweise nicht allein verwalten. Somit können die Server und Datenbanken gemeinsam genutzte Hardware sein, wobei dem Benutzer ein bestimmter Anteil zur dedizierten Nutzung dieser Ressourcen gewährt wird. Der Cloud-basierten Site des Benutzers wird eine virtuelle Menge an dediziertem Raum und Bandbreite in der Cloud gegeben. Cloud-Anwendungen können sich von anderen Anwendungen in ihrer Skalierbarkeit unterscheiden, die durch Klonen von Aufgaben auf multiplen virtuellen Maschinen zur Laufzeit, um veränderlichem Arbeitsbedarf zu entsprechen, erreicht werden kann. Load-Balancer verteilen die Arbeit über den Satz virtueller Maschinen. Dieser Prozess ist für den Cloud-Benutzer, der nur einen einzigen Zugangspunkt sieht, transparent.
Der Cloud-basierte Fernzugriff ist dafür kodiert, ein Protokoll wie z. B. Hypertext Transfer Protocol (HTTP) zu nutzen, um einen Request- und Response-Zyklus zu betreiben, sowohl mit einer mobilen Geräteanwendung, die in einem Client-Gerät, 302A-302G, resident ist, als auch einer Webbrowser-Anwendung, die in dem Client-Gerät, 302A-302G, resident ist. In einigen Situationen kann der Cloud-basierte Fernzugriff für ein tragbares elektronisches Gerät 302C über ein mobiles Gerät, einen Desktop bzw. eine Tablet-Vorrichtung, das/der/die mit diesem tragbaren elektronischen Gerät 302C kooperiert, erfolgen. Der Cloud-basierte Fernzugriff zwischen einem Client-Gerät 302A-302G und der Cloud-basierten Provider-Site 304A ist kodiert, um eines oder mehrere von Folgendem zu betreiben: 1) den Request- und Response-Zyklus aus allen Webbrowser-basierten Anwendungen, 2) SMS-/Twitterbasierten Request- und Response-Nachrichtenaustausch, 3) den Request- und Response-Zyklus aus einem dedizierten Online-Server, 4) den Request- und Response-Zyklus direkt zwischen einer nativen mobilen Anwendung, die in einem Client-Gerät resident ist, und dem Cloud-basierten Fernzugriff auf ein tragbares elektronisches Gerät, und 5) Kombinationen von diesen.
In einer Ausführungsform kann das Serverrechensystem 304A eine Server-Engine, eine Webseiten-Verwaltungskomponente oder einen Online-Service oder eine Online-App-Komponente, eine Content-Verwaltungskomponente und eine Datenbank-Verwaltungskomponente beinhalten. Die Server-Engine führt grundlegende Verarbeitung und Aufgaben auf Betriebssystemebene durch. Die Webseiten-Verwaltungskomponente, der Online-Service oder die Online-App-Komponente handhabt Erstellung und Anzeige oder Routing von Webseiten oder Bildschirmen, die mit Empfang und Bereitstellung digitaler Inhalte und digitaler Werbungen assoziiert sind. Benutzer können auf die Serverrechenvorrichtung mittels eines damit assoziierten URL zugreifen. Die Content-Verwaltungskomponente handhabt die meisten der Funktionen in den hierin beschriebenen Ausführungsformen. Die Datenbank-Verwaltungskomponente beinhaltet Speicherungs- und Abrufaufgaben mit Bezug auf die Datenbank, Fragen an die Datenbank und Speicherung von Daten.
Rechenvorrichtungen
4 veranschaulicht ein Blockdiagramm einer Ausführungsform einer oder mehrerer Rechenvorrichtungen, die ein Bestandteil des Konversationsassistenten für eine Ausführungsform des hierin diskutierten aktuellen Designs sein können.
Die Rechenvorrichtung kann Folgendes beinhalten: einen oder mehrere Prozessoren oder Verarbeitungseinheiten 420 zum Ausführen von Instruktionen, einen oder mehrere Speicher 430-432 zum Speichern von Informationen, eine oder mehrere Dateneingabekomponenten 460-463 zum Entgegennehmen von Dateneingaben eines Benutzers der Rechenvorrichtung 400, ein oder mehrere Module, zu denen das Managementmodul, eine Netzwerkschnittstellen-Kommunikationsschaltung 470 zum Aufbau einer Kommunikationsverbindung zum Kommunizieren mit anderen zur Rechenvorrichtung externen Rechenvorrichtungen, ein oder mehrere Sensoren, wobei eine Ausgabe aus den Sensoren benutzt wird, um einen spezifischen Auslösezustand zu erfassen und anschließend dementsprechend eine oder mehrere vorprogrammierte Maßnahmen zu generieren, ein Anzeigebildschirm 491 zum Anzeigen zumindest einiger Informationen, die in dem einen oder mehreren Speichern 430-432 gespeichert sind, und sonstige Komponenten zählen. Man beachte, dass Abschnitte dieses in Software 444, 445, 446 implementierten Designs in dem einen oder mehreren Speichern 430-432 gespeichert sind und von dem einen oder mehreren Prozessoren 420 ausgeführt werden. Die Verarbeitungseinheit 420 kann einen oder mehrere Verarbeitungskerne aufweisen, die an einen Systembus 421 gekoppelt sind, der verschiedene Systemkomponenten einschließlich des Systemspeichers 430 koppelt. Der Systembus 421 kann ein beliebiger von mehreren Arten von Busstrukturen sein, die ausgewählt sind aus einem Speicherbus, einer Verbindungsstruktur, einem peripheren Bus und einem lokalen Bus, wobei beliebige einer Vielzahl von Busarchitekturen zur Anwendung kommen.
Rechenvorrichtung 402 beinhaltet typischerweise eine Vielzahl von maschinenlesbaren Rechenmedien. Maschinenlesbare Medien können beliebige verfügbare Medien sein, die durch Rechenvorrichtung 402 zugänglich sind, und beinhalten sowohl flüchtige als auch nichtflüchtige Medien sowie herausnehmbare und nicht herausnehmbare Medien. Als Beispiel, und nicht als Einschränkung, beinhaltet die Benutzung maschinenlesbarer Rechenmedien die Speicherung von Informationen wie z. B. computerlesbaren Instruktionen, Datenstrukturen, sonstiger ausführbarer Software oder sonstigen Daten. Computerspeichermedien beinhalten, sind aber nicht beschränkt auf, RAM, ROM, EEPROM, Flashspeicher oder sonstige Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder sonstige optische Plattenspeicher, magnetische Kassetten, Magnetband, Magnetplattenspeicher oder sonstige magnetische Speichermedien bzw. alle anderen tangierbaren Medien, die benutzt werden können, um die gewünschten Informationen zu speichern, und durch die Rechenvorrichtung 402 zugänglich sind. Transitorische Medien wie z. B. Drahtloskanäle sind nicht in den maschinenlesbaren Medien inbegriffen. Maschinenlesbare Medien verkörpern typischerweise computerlesbare Instruktionen, Datenstrukturen und sonstige ausführbare Software.
In einem Beispiel ist ein flüchtiges Speicherlaufwerk 441 zum Speichern von Abschnitten des Betriebssystems 444, Anwendungsprogrammen 445, sonstiger ausführbarer Software 446 und Programmdaten 447 veranschaulicht.
Ein Benutzer kann Befehle und Informationen in die Rechenvorrichtung 402 durch Eingabegeräte wie z. B. eine Tastatur, einen Touchscreen oder Software- oder Hardware-Eingabetasten 462, ein Mikrofon 463, eine Zeigevorrichtung und/oder scrollende Eingabekomponente wie z. B. eine Maus, einen Trackball oder ein Touchpad 461 eingeben. Das Mikrofon 463 kann mit Spracherkennungssoftware kooperieren. Diese und andere Eingabegeräte sind oft mit der Verarbeitungseinheit 420 durch eine Benutzereingabeschnittstelle 460 verbunden, die an den Systembus 421 gekoppelt ist, aber durch andere Schnittstellen- und Busstrukturen verbunden sein können, wie z. B. einen Lighting-Port, Gameport oder einen Universal Serial Bus (USB). Ein Anzeigemonitor 491 oder eine andere Art von Anzeigebildschirmgerät ist ebenfalls mit dem Systembus 421 über eine Schnittstelle verbunden, wie z. B. eine Anzeigeschnittstelle 490. Zusätzlich zum Monitor 491 können Rechenvorrichtungen auch andere periphere Ausgabegeräte wie z. B. Lautsprecher 497, ein Vibrationsgerät 499 und sonstige Ausgabegeräte beinhalten, die durch eine periphere Ausgabeschnittstelle 495 angeschlossen sein können.
Die Rechenvorrichtung 402 kann in einer vernetzten Umgebung unter Verwendung logischer Anschlüsse an ein oder mehrere „remote“ Computer/Client-Geräte wie z. B. ein Remote-Rechensystem 480 arbeiten. Das Remote-Rechensystem 480 kann ein Personalcomputer, eine mobile Rechenvorrichtung, ein Server, ein Router, ein Netzwerk-PC, ein Peer-Gerät oder sonstiger gebräuchlicher Netzwerkknoten sein und beinhaltet typischerweise viele oder alle der vorstehend in Bezug auf die Rechenvorrichtung 402 beschriebenen Elemente. Die logischen Anschlüsse können ein Personal Area Network (PAN) 472 (z. B. Bluetooth®), ein Local Area Network (LAN) 471 (z. B. Wi-Fi) und ein Wide Area Network (WAN) 473 (z. B. zelluläres Netzwerk) beinhalten. Solche Vernetzungsumgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet üblich. Eine Browseranwendung und/oder eine oder mehrere lokale Apps können in der Rechenvorrichtung resident und im Speicher gespeichert sein.
Bei Benutzung in einer LAN-Vernetzungsumgebung ist die Rechenvorrichtung 402 mit dem LAN 471 durch eine Netzwerkschnittstelle 470 verbunden, die beispielsweise ein Bluetooth®- oder Wi-Fi-Adapter sein kann. Bei Benutzung in einer WAN-Vernetzungsumgebung (z. B. Internet) beinhaltet die Rechenvorrichtung 402 typischerweise ein Mittel zum Aufbau der Kommunikation über das WAN 473. Mit Bezug auf mobile Telekommunikationstechnologien, kann beispielsweise eine Funkschnittstelle, die intern oder extern sein kann, an den Systembus 421 über die Netzwerkschnittstelle 470 oder einen sonstigen geeigneten Mechanismus angeschlossen sein. In einer vernetzten Umgebung kann sonstige Software, die relativ zur Rechenvorrichtung 402 dargestellt ist, oder können Abschnitte davon in der Remote-Speichervorrichtung gespeichert sein. Als Beispiel, und nicht als Einschränkung, residieren Remote-Anwendungsprogramme 485 in der Remote-Rechenvorrichtung 480. Es versteht sich, dass die dargestellten Netzwerkverbindungen Beispiele sind und andere Mittel zum Aufbau einer Kommunikationsverbindung zwischen den Rechenvorrichtungen benutzt werden können.
Es versteht sich, dass das vorliegende Design auf einer Rechenvorrichtung wie z. B. derjenigen, die mit Bezug auf diese Figur dargestellt ist, ausgeführt werden kann. Das vorliegende Design kann jedoch auf einem Server, einer der Nachrichtenverarbeitung gewidmeten Rechenvorrichtung oder auf einem verteilten System ausgeführt werden, in dem verschiedene Abschnitte des vorliegenden Designs auf verschiedenen Teilen des verteilten Rechensystems ausgeführt werden.
Zur Beachtung: eine hierin beschriebene Anwendung beinhaltet Softwareanwendungen, mobile Anwendungen und Programme, die Bestandteil einer Betriebssystemanwendung sind, ohne darauf beschränkt zu sein. Einige Abschnitte dieser Beschreibung sind anhand von Algorithmen und symbolischen Darstellungen von Operationen an Datenbits innerhalb eines Computerspeichers dargestellt. Diese algorithmischen Beschreibungen und Darstellungen sind die Mittel, die von Fachleuten auf dem Gebiet der Datenverarbeitung benutzt werden, um anderen Fachleuten auf dem Gebiet die Substanz ihrer Arbeit am effektivsten zu vermitteln. Ein Algorithmus ist hier, und allgemein, als selbstkonsistente Sequenz von Schritten, die zu einem gewünschten Ergebnis führen, konzipiert. Die Schritte sind diejenigen, die physische Manipulationen physischer Größen erfordern. Üblicherweise, obgleich nicht unbedingt, nehmen diese Größen die Form von elektrischen oder magnetischen Signalen an, die gespeichert, transferiert, kombiniert, verglichen und sonst wie manipuliert werden können. Es hat sich mitunter als günstig erwiesen, vorrangig aus Gründen der üblichen Verwendung, diese Signale als Bits, Werte, Elemente, Symbole, Zeichen, Terme, Nummern oder dergleichen zu bezeichnen. Diese Algorithmen können in einer Reihe von verschiedenen Softwareprogrammiersprachen wie z. B. C, C++, HTTP, Java oder anderen ähnlichen Sprachen geschrieben werden. Außerdem kann ein Algorithmus mit Codezeilen in Software, konfigurierten logischen Gattern in Hardware oder einer Kombination von beiden implementiert werden. In einer Ausführungsform besteht die Logik aus elektronischen Schaltungen, die den booleschen Logikregeln folgen, Software, die Muster von Instruktionen enthält, oder einer beliebigen Kombination von beiden. Ein Modul kann in elektronischen Hardwarekomponenten, Softwarekomponenten und einer Kombination von beiden implementiert sein.
Generell beinhaltet eine Anwendung Programme, Routinen, Objekte, Widgets, Plug-ins und andere ähnliche Strukturen, die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Fachleute auf dem Gebiet können die Beschreibung und/oder Figuren hierin als computerausführbare Instruktionen implementieren, die auf jeder hierin diskutierten Form von maschinenlesbaren Rechenmedien verkörpert sein können.
Viele von elektronischen Hardwarekomponenten durchgeführte Funktionen können durch Softwareemulation dupliziert werden. Somit kann ein Softwareprogramm, das geschrieben wurde, um jene selben Funktionen zu erzielen, die Funktionalität der Hardwarekomponenten in Eingabe-Ausgabe-Schaltungen emulieren.
Obwohl das vorstehende Design und Ausführungsformen davon in beträchtlichem Detail vorgelegt wurden, ist es nicht die Absicht des/der Anmelder(s), dass das Design und die Ausführungsformen, die hierin bereitgestellt sind, einschränkend sind. Zusätzliche Anpassungen und/oder Modifikationen sind möglich, und in weitergehenden Aspekten sind diese Anpassungen und/oder Modifikationen ebenfalls eingeschlossen. Dementsprechend können Abweichungen von dem/den vorstehenden Design(s) und Ausführungsformen erfolgen, ohne vom von den folgenden Ansprüchen gebotenen Umfang abzuweichen, wobei dieser Umfang nur von den Ansprüchen, bei angemessener Auslegung, beschränkt ist.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/845604 [0001]

Claims

Eine Vorrichtung zum Verstehen und Generieren menschlicher Konversations-Cues, umfassend: ein Konversationsintelligenz(KI)-Managermodul mit einer regelbasierten Engine zu Konversationsintelligenz für einen voicebasierten digitalen Assistenten (VDA), wobei das KI-Managermodul einen oder mehrere Eingänge zur Entgegennahme von Informationen aus einem oder mehreren Modulen aufweist, um Bestimmungen vorzunehmen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren menschenähnlicher Konversations-Cues, einschließlich zumindest Verstehen und/oder Generieren einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation für zumindest eines von 1) Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA oder 2) Aufbauen einer Konversationsgrundlage, ohne das Rederecht zu übernehmen, und wobei das KI-Managermodul konfiguriert ist zum Benutzen der regelbasierten Engine zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers und, wenn das KI-Managermodul entscheidet, die Backchannel-Äußerung zu generieren, das KI-Managermodul dann konfiguriert ist zum Generieren eines Befehls zum Ausgeben der Backchannel-Äußerung, um beliebige i) eines Verstehens, ii) einer Anforderung weiterer Informationen, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss des Benutzers vermittelt werden, zu signalisieren.
Die Vorrichtung nach Anspruch 1, wobei das KI-Managermodul konfiguriert ist zum Benutzen der regelbasierten Engine zum Analysieren und Vornehmen von Bestimmungen zu Faktoren von Konversations-Cues, wobei die regelbasierte Engine Regeln zum Analysieren und Vornehmen von Bestimmungen zu zwei oder mehr Konversations-Cues beliebiger von i) nicht-lexikalischen Elementen, ii) Prosodie gesprochener Worte, iii) grammatischer Vollständigkeit der Satzsyntax im Redefluss des Benutzers, iv) Pausendauer und v) Grad der semantischen Beschränkungen der Äußerung eines Benutzers aufweist, und wobei das KI-Managermodul dafür konfiguriert ist, nach Vornehmen dieser Bestimmungen und Analyse, anschließend zu entscheiden, ob eine Äußerung zu generieren ist, für zumindest eines von 1) Anfordern zusätzlicher Informationen vom Benutzer, 2) Signalisieren der Zustimmung und des Verständnisses des VDAs, dass der Benutzer weiterhin das Rederecht hat, oder 3) Anzeigen, dass der VDA den Wunsch hat, das Rederecht zu ergreifen; im Gegensatz zum reinen Warten auf eine Pause von fester Zeitdauer und zur anschließenden Annahme, dass der Benutzer das Rederecht abgetreten hat.
Die Vorrichtung nach Anspruch 1, wobei das KI-Managermodul einen prosodischen Analysator zum Ermöglichen einer Mikrointeraktion aufweist, der prosodische Informationen zur Rede des Benutzers erfordert, wobei das KI-Managermodul konfiguriert ist zur Entgegennahme von Eingabedaten zur prosodischen Analyse aus einem automatischen audioverarbeitenden Modul, wobei das automatische audioverarbeitende Modul dafür konfiguriert ist, zuerst zu prüfen, um zu erkennen, ob irgendeine Sprechaktivität vorkommt, und dann die prosodische Analyse auf eine Äußerung eines Benutzers unter Verwendung des prosodischen Detektors anzuwenden, um zu bestimmen, i) ob der Benutzer in der Tat das Rederecht abgetreten hat, oder ii) ob der Benutzer Pausen in seinen Redefluss einfügt, um zusätzliche Informationen zu vermitteln, wobei die zusätzlichen Informationen ausgewählt sind aus einer Gruppe bestehend aus 1) Sprechen mit Pausen, um dabei zu helfen, eine lange Liste von Informationen zu vermitteln, 2) Sprechen mit Pausen zwischen zwei oder mehr Benutzeräußerungen, sodass der Benutzer anfänglich unvollständig mit einer ersten Äußerung sprechen kann, gefolgt von einer Pause, und dann einer zweiten Äußerung, um einen Gedanken abzuschließen, den der Benutzer mit jener Sprechaktivität zu vermitteln versucht, 3) Sprechen mit Pausen, um dem System einen Backchannel zu entlocken, sowie 4) einer beliebigen Kombination dieser drei.
Die Vorrichtung nach Anspruch 1, wobei, wenn Abschnitte des KI-Managermoduls in Software implementiert sind, etwaige Instruktionen dann in einem oder mehreren nicht-transitorischen maschinenlesbaren Speichermedien in einem Format gespeichert sind, das beim Ausführen durch das KI-Managermodul bewirkt, dass das KI-Managermodul Funktionen durchführt, die für die Vorrichtung nach Anspruch 1 aufgelistet sind, und wobei das KI-Managermodul eine Eingabe aus einem Konversationsgrundlagen-Detektor zum Bestimmen dessen aufweist, wann sich ein gegenseitiges Verstehen zwischen einem Benutzer und dem VDA nicht ergibt, wobei, wenn das KI-Managermodul die Bestimmung vornimmt, dass sich das gegenseitige Verstehen nicht ergibt, dann das KI-Managermodul, ein natürliches Sprachgenerierungsmodul und ein Text-zu-Sprache-Modul konfiguriert sind zum Kooperieren, um eine oder mehrere Äußerungen zu äußern, um das gegenseitige Verstehen wiederherzustellen, wobei die regelbasierte Engine konfiguriert ist zum Benutzen von Regeln, um zu entscheiden, wann sich das gegenseitige Verstehen zwischen dem Benutzer und dem VDA nicht ergibt.
Die Vorrichtung nach Anspruch 1, wobei das KI-Managermodul eine Eingabe aus einem Disfluenzdetektor aufweist, um eine Mikrointeraktion zur Sprachreparatur auszulösen, zum Erkennen von Disfluenzinformationen verschiedener Unterbrechungen von i) Worten und Sätzen, die inmitten der Äußerung abgeschnitten werden, und/oder ii) nicht-lexikalischen Vokabeln, die geäußert werden, während der Benutzer spricht und das Rederecht hat, wobei das KI-Managermodul konfiguriert ist zum Arbeiten mit 1) einem automatischen audioverarbeitenden Modul, um die Disfluenzinformationen in der Rede in ansonsten flüssiger Rede des Benutzers zu erkennen, und dann 2) der regelbasierten Engine, um Regeln zum Feststellen der Disfluenzinformationen anzuwenden und entweder i) die Disfluenzinformationen zur Sprachreparatur zu benutzen oder ii) eine Konversationsgrundlage zu bilden, um beim Benutzer zu bestätigen, dass das Verständnis des Systems korrekt ist, iii) oder beiden.
Die Vorrichtung nach Anspruch 1, wobei das KI-Managermodul konfiguriert ist zum Kooperieren mit einem Modul zum Verstehen gesprochener Sprache zur Bereitstellung von Eingabeinformationen zum benutzerbezogenen Analysieren i) eines emotionalen Zustands während der Antwort, ii) eines akustischen Tons einer Äußerung, iii) von Prosodie, iv) etwaiger Diskursmarker sowie v) einer beliebigen Kombination von diesen, um die Haltung eines Benutzers anzugeben, die in dem vom Benutzer Gesagten vermittelt wird, aus Eingabedaten, wobei das KI-Managermodul konfiguriert ist zum Vornehmen einer Bestimmung unter Berücksichtigung des emotionalen Zustands, des akustischen Tons der Äußerung oder der Diskursmarker aus dem Modul zum Verstehen gesprochener Sprache und zum anschließenden Ausgeben seiner eigenen Antwort oder Anpassen eines Zustands und, beim Ausgeben seiner eigenen Antwort, unter Verwendung eines Text-zu-Sprache-Moduls, um 1) das Rederecht abzutreten, 2) dem Benutzer zusätzliche Informationen zu entlocken oder 3) einen Dialogzustand zu ändern, um die Systemantwort auf den Benutzer zu ändern.
Die Vorrichtung nach Anspruch 1, weiterhin umfassend: wobei ein Dialogmanager-Modul bilateral mit einer Eingabe und einer Ausgabe mit dem KI-Managermodul verbunden ist, wobei das Dialogmanager-Modul konfiguriert ist zum Analysieren und Verfolgen zumindest eines Dialogzustands, einschließlich eines aktuellen Themas, bei einer oder mehreren verwandten Äußerungen, und wobei das KI-Managermodul konfiguriert ist zum Verdauen von Informationen aus zumindest einem Modul zum Verstehen gesprochener Sprache einschließlich i) eines Tonfalls oder einer Stimmlage, ii) Timing-Informationen, iii) einer Äußerung, iv) eines Übergangsworts und v) eines sonstigen menschlichen Cues, wodurch ein Übergang des Rederechts signalisiert wird, um zu bestimmen, wie in Bezug darauf vorzugehen ist, ob das Rederecht zwischen dem Benutzer und dem VDA zu übernehmen, zu ergreifen oder abzutreten ist.
Die Vorrichtung nach Anspruch 1, wobei das KI-Managermodul konfiguriert ist zum bilateralen Austausch von Eingaben und Ausgaben mit einem natürlichen Sprachgenerierungsmodul und einem Text-zu-Sprache-Modul, um die menschenähnlichen Konversations-Cues zu generieren, die prosodische Konversations-Cues für den Fluss und Austausch von menschlicher Kommunikation zwischen dem Benutzer und dem VDA nutzen.
Die Vorrichtung nach Anspruch 1, weiterhin umfassend: ein oder mehrere Umgebungsmodule in kommunikativer Verbindung mit dem KI-Managermodul, die konfiguriert sind zur Bereitstellung von Informationen über einen Weltkontext, mit dem der Benutzer interagiert, wobei das KI-Managermodul des VDA konfiguriert ist zum Benutzen der Informationen zur Unterstützung der Bestimmung dessen, wann der Benutzer gegenwärtig abgelenkt und minder fähig ist, Rede aus dem VDA zu verarbeiten, wobei das KI-Managermodul dafür konfiguriert ist, Maßnahmen zu ergreifen, um ein Verhalten des VDA anzupassen, wenn bestimmt wird, dass der Benutzer abgelenkt ist.
Die Vorrichtung nach Anspruch 1, weiterhin umfassend: wobei das natürliche Sprachgenerierungsmodul konfiguriert ist zur Benutzung von Prosodie, einschließlich Stimmlage, um dem KI-Managermodul und dem Benutzer zu ermöglichen, die Konversationsgrundlage mittels Prosodie aufzubauen, wenn das Text-zu-Sprache-Modul an den Benutzer gerichtete Rede generiert, wobei das natürliche Sprachgenerierungsmodul konfiguriert ist zur Benutzung der Prosodie mittels für prosodisches Markieren spezifischer Informationen, die bei einer verbalen Kommunikation unsicher sind, um die spezifischen Informationen hervorzuheben, die innerhalb der verbalen Kommunikation prosodisch markiert sind, damit sich der Benutzer eines Unsicherheitsstatus der spezifischen Informationen bewusst ist, und wobei das automatische audioverarbeitende Modul konfiguriert ist zum Analysieren von Prosodie, einschließlich Stimmlage, aus der Rede des Benutzers, um dem KI-Managermodul und dem Benutzer zu ermöglichen, die Konversationsgrundlage mittels Erkennung einer Veränderung der Prosodie in Bezug auf spezifische Informationen in der Rede des Benutzers aufzubauen.
Ein Verfahren zum Verstehen und Generieren menschlicher Konversations-Cues, umfassend: Nutzen eines Konversationsintelligenz(KI)-Managermoduls mit einer regelbasierten Engine zu Konversationsintelligenz für einen voicebasierten digitalen Assistenten (VDA) zur Verarbeitung von Informationen aus einem oder mehreren Modulen, um Bestimmungen vorzunehmen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren menschenähnlicher Konversations-Cues, einschließlich Verstehen und/oder Generieren einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation für zumindest eines von 1) Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA oder 2) Aufbauen einer Konversationsgrundlage, ohne das Rederecht zu übernehmen, und Nutzen der regelbasierten Engine zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers, um die Backchannel-Äußerung zu generieren, um beliebige i) eines Verstehens, ii) einer Korrektur, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss vermittelt werden, zu signalisieren.
Das Verfahren nach Anspruch 11, weiterhin umfassend: Nutzen einer regelbasierten Engine zum Analysieren und Vornehmen von Bestimmungen zu zwei oder mehr Konversations-Cues beliebiger von i) nicht-lexikalischen Elementen, ii) Prosodie gesprochener Worte, iii) grammatischer Vollständigkeit der Satzsyntax im Redefluss des Benutzers, iv) Pausendauer und v) Grad der semantischen Beschränkungen einer Äußerung eines Benutzers, wobei, nach Vornehmen dieser Bestimmungen und Analyse, anschließend zum Entscheiden, ob eine Äußerung zu generieren ist, für zumindest eines von 1) Anfordern zusätzlicher Informationen vom Benutzer, 2) Signalisieren der Zustimmung und des Verständnisses des VDAs, dass der Benutzer weiterhin das Rederecht hat, oder 3) Anzeigen, dass der VDA den Wunsch hat, das Rederecht zu ergreifen; im Gegensatz zum reinen Warten auf eine Pause von fester Zeitdauer und zur anschließenden Annahme, dass der Benutzer das Rederecht abgetreten hat.
Das Verfahren nach Anspruch 11, weiterhin umfassend: Nutzen eines prosodischen Analysators im KI-Managermodul für eine prosodische Analyse zur Rede des Benutzers, wobei das KI-Managermodul Eingabedaten zur prosodischen Analyse aus einem automatischen audioverarbeitenden Modul entgegennimmt, wobei der prosodische Analysator zuerst prüft, um zu erkennen, ob irgendeine Sprechaktivität vorkommt, und dann die prosodische Analyse auf eine Äußerung eines Benutzers unter Verwendung des prosodischen Detektors anwendet, um zu bestimmen, i) ob der Benutzer in der Tat das Rederecht abgetreten hat, oder ii) ob der Benutzer Pausen in seinen Redefluss einfügt, um zusätzliche Informationen zu vermitteln, wobei die zusätzlichen Informationen ausgewählt sind aus einer Gruppe bestehend aus 1) Sprechen mit Pausen, um dabei zu helfen, eine lange Liste von Informationen zu vermitteln, 2) Sprechen mit Pausen zwischen zwei oder mehr Benutzeräußerungen, sodass der Benutzer anfänglich unvollständig mit einer ersten Äußerung sprechen kann, gefolgt von einer Pause, und dann einer zweiten Äußerung, um einen Gedanken abzuschließen, den der Benutzer mit jener Sprechaktivität zu vermitteln versucht, 3) Sprechen mit Pausen, um dem System einen Backchannel zu entlocken, sowie 4) einer beliebigen Kombination dieser drei.
Das Verfahren nach Anspruch 11, weiterhin umfassend: Nutzen eines Konversationsgrundlagen-Detektors im KI-Managermodul zum Bestimmen dessen, wann sich ein gegenseitiges Verstehen zwischen einem Benutzer und dem VDA nicht ergibt, wobei, wenn das KI-Managermodul die Bestimmung vornimmt, dass sich das gegenseitige Verstehen nicht ergibt, dann das KI-Managermodul, ein natürliches Sprachgenerierungsmodul und ein Text-zu-Sprache-Modul konfiguriert sind zum Kooperieren, um eine oder mehrere Äußerungen zu äußern, um das gegenseitige Verstehen wiederherzustellen, wobei die regelbasierte Engine konfiguriert ist zum Benutzen von Regeln, um zu entscheiden, wann sich das gegenseitige Verstehen zwischen dem Benutzer und dem VDA nicht ergibt.
Das Verfahren nach Anspruch 11, weiterhin umfassend: Nutzen eines Disfluenzdetektors im KI-Managermodul zur Sprachreparatur bei Disfluenzinformationen verschiedener Unterbrechungen von i) Worten und Sätzen, die inmitten der Äußerung abgeschnitten werden, und/oder ii) nicht-lexikalischen Vokabeln, die geäußert werden, während der Benutzer spricht und das Rederecht hat, wobei das KI-Managermodul konfiguriert ist zum Arbeiten mit 1) einem automatischen audioverarbeitenden Modul, um die Disfluenzinformationen in der Rede in ansonsten flüssiger Rede des Benutzers zu erkennen, und dann 2) der regelbasierten Engine, um Regeln zum Feststellen der Disfluenzinformationen anzuwenden und entweder i) die Disfluenzinformationen zur Sprachreparatur zu benutzen oder ii) eine Konversationsgrundlage zu bilden, um beim Benutzer zu bestätigen, dass das Verständnis des Systems korrekt ist, iii) oder beiden.
Das Verfahren nach Anspruch 11, weiterhin umfassend: Nutzen eines Moduls zum Verstehen gesprochener Sprache zum Kooperieren mit dem Kl-Managermodul zur Bereitstellung von Eingabeinformationen zum benutzerbezogenen Analysieren i) eines emotionalen Zustands während der Antwort, ii) eines akustischen Tons einer Äußerung, iii) von Prosodie, iv) etwaiger Diskursmarker sowie v) einer beliebigen Kombination von diesen, um die Haltung eines Benutzers anzugeben, die in dem vom Benutzer Gesagten vermittelt wird, aus Eingabedaten, wobei das KI-Managermodul konfiguriert ist zum Vornehmen einer Bestimmung unter Berücksichtigung des emotionalen Zustands, des akustischen Tons der Äußerung oder der Diskursmarker aus dem Modul zum Verstehen gesprochener Sprache und zum anschließenden Ausgeben seiner eigenen Antwort oder Anpassen eines Zustands und, beim Ausgeben seiner eigenen Antwort, unter Verwendung eines Text-zu-Sprache-Moduls, um 1) das Rederecht abzutreten, 2) dem Benutzer zusätzliche Informationen zu entlocken oder 3) einen Dialogzustand zu ändern, um die Systemantwort auf den Benutzer zu ändern.
Das Verfahren nach Anspruch 11, weiterhin umfassend: Nutzen eines Dialogmanager-Moduls, das bilateral mit einer Eingabe und einer Ausgabe mit dem KI-Managermodul verbunden ist, wobei das Dialogmanager-Modul konfiguriert ist zum Analysieren und Verfolgen zumindest eines Dialogzustands, einschließlich eines aktuellen Themas, bei einer oder mehreren verwandten Äußerungen, und Nutzen des KI-Managermoduls zum Verdauen von Informationen aus zumindest einem Modul zum Verstehen gesprochener Sprache zu Mikrointeraktionen einschließlich i) eines Tonfalls oder einer Stimmlage, ii) Timing-Informationen, iii) einer Äußerung, iv) eines Übergangsworts und v) eines sonstigen menschlichen Cues, wodurch ein Übergang des Rederechts signalisiert wird, um zu bestimmen, wie in Bezug darauf vorzugehen ist, ob zumindest eines von Übernehmen, Ergreifen oder Abtreten des Rederechts zwischen dem Benutzer und dem VDA erfolgt.
Ein nichtflüchtiges computerlesbares Medium, das Instruktionen enthält, die beim Ausführen durch eine Rechenmaschine bewirken, dass die Rechenmaschine das Verfahren nach Anspruch 11 durchführt.
Eine Vorrichtung zum Verstehen und Generieren menschlicher Konversations-Cues, umfassend: ein Konversationsintelligenz(KI)-Managermodul, das konfiguriert ist zum Benutzen von Regeln und Parametern zu Konversationsintelligenz für einen voicebasierten digitalen Assistenten (VDA), wobei das KI-Managermodul einen oder mehrere Eingänge zur Entgegennahme von Informationen als die Parameter aus einem oder mehreren Modulen aufweist, um Bestimmungen vorzunehmen sowohl zum i) Verstehen der menschlichen Konversations-Cues als auch ii) Generieren menschenähnlicher Konversations-Cues, einschließlich zumindest Verstehen und/oder Generieren einer Backchannel-Äußerung, in einem Fluss und Austausch von menschlicher Kommunikation für zumindest eines von 1) Übernehmen, Ergreifen oder Abtreten eines Rederechts zwischen einem Benutzer und dem VDA und 2) Aufbauen einer Konversationsgrundlage, ohne das Rederecht zu übernehmen, und wobei das KI-Managermodul konfiguriert ist zum Benutzen von Reinforcement Learning unter Verwendung der Regeln und der Parameter zum Analysieren und Vornehmen einer Bestimmung zu einem Konversations-Cue von, zumindest, Prosodie im Redefluss eines Benutzers und, wenn das Kl-Managermodul entscheidet, die Backchannel-Äußerung zu generieren, das KI-Managermodul dann konfiguriert ist zum Generieren eines Befehls zum Ausgeben der Backchannel-Äußerung, um beliebige i) eines Verstehens, ii) einer Anforderung weiterer Informationen, iii) einer Bestätigung und iv) einer Infragestellung verbaler Kommunikationen, die vom Benutzer im Redefluss des Benutzers vermittelt werden, zu signalisieren.
Die Vorrichtung nach Anspruch 19, wobei das KI-Managermodul konfiguriert ist zum Benutzen von Reinforcement Learning und zumindest eines Parameters eines emotionalen Zustands des Benutzers als Belohnungsfunktion für das Reinforcement Learning.