DE112021004208T5

DE112021004208T5 - Sprachantwort-System einer künstlichen Intelligenz für Benutzer mit Sprachbehinderung

Info

Publication number: DE112021004208T5
Application number: DE112021004208.4T
Authority: DE
Inventors: Shikhar KWATRA; Laura Grace Ellis; Kaitlin McGoldrick; Sarbajit Rakshit
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-11
Filing date: 2021-09-06
Publication date: 2023-06-01
Also published as: JP2023542615A; GB2614193A; CN116075886A; GB202304708D0; US20220084504A1; WO2022053926A1

Abstract

Bereitgestellt werden ein Verfahren, ein Computersystem und ein Computerprogrammprodukt für Sprachantworten. Die vorliegende Erfindung kann ein Sammeln von Benutzerdaten von mindestens einer verbundenen Einheit umfassen. Die vorliegende Erfindung kann ein Schulen eines Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten umfassen. Die vorliegende Erfindung kann ein Identifizieren eines Wecksignals auf Grundlage des geschulten Sprachantwort-Systems umfassen. Die vorliegende Erfindung kann ein Bestimmen umfassen, dass eine Benutzerinteraktion auf Grundlage des Identifizierens des Wecksignals beabsichtigt ist. Die vorliegende Erfindung kann ein Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit umfassen.

Description

HINTERGRUND
Die vorliegende Erfindung betrifft allgemein das Gebiet Datenverarbeitung und insbesondere virtuelle Assistenten.
Sprachstörungen, einschließlich Sprachbehinderungen und/oder andere Sprachartikulationsstörungen können zu einer Unfähigkeit führen, Sprache zu bilden und/oder entsprechende Wörter zu verwenden, um einen Sprachbefehl zu formulieren, der von einem Sprachantwort-System einer künstlichen Intelligenz (KI) verstanden werden kann. Krankheiten, die zu Ermüdungs- und/oder anderen körperlichen Zuständen führen, können ebenfalls eine Unfähigkeit einer Person bewirken, einen Sprachbefehl zu übermitteln und/oder eine ausführliche Anforderung an ein Sprachantwort-System einer KI auszusprechen.
KURZDARSTELLUNG DER ERFINDUNG
Ausführungsformen der vorliegenden Erfindung offenbaren ein Verfahren, ein System und ein Computerprogrammprodukt für Sprachantworten. Die vorliegende Erfindung kann ein Sammeln von Benutzerdaten von mindestens einer verbundenen Einheit umfassen. Die vorliegende Erfindung kann ein Schulen eines Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten umfassen. Die vorliegende Erfindung kann ein Identifizieren eines Wecksignals auf Grundlage des geschulten Sprachantwort-Systems umfassen. Die vorliegende Erfindung kann ein Bestimmen umfassen, dass eine Benutzerinteraktion auf Grundlage des Identifizierens des Wecksignals beabsichtigt ist. Die vorliegende Erfindung kann ein Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit umfassen.
Figurenliste
Diese und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden ausführlichen Beschreibung von veranschaulichenden Ausführungsformen davon offenkundig, die in Verbindung mit den begleitenden Zeichnungen gelesen werden soll. Die verschiedenen Merkmale der Zeichnungen sind nicht maßstabsgetreu, da die Veranschaulichungen nur zur Verdeutlichung dienen, die dem Fachmann das Verständnis der Erfindung in Verbindung mit der ausführlichen Beschreibung erleichtern soll. Die Zeichnungen:

1 veranschaulicht eine vernetzte Computer-Umgebung gemäß mindestens einer Ausführungsform;
2 ist ein betrieblicher Ablaufplan, der einen Prozess für Sprachantworten gemäß mindestens einer Ausführungsform veranschaulicht;
3 ist ein Blockschaubild von internen und externen Komponenten von Computern und Servern, die in 1 gemäß mindestens einer Ausführungsform dargestellt sind;
4 ist ein Blockschaubild einer veranschaulichenden Cloud-Computing-Umgebung, die das in 1 dargestellte Computersystem gemäß einer Ausführungsform der vorliegenden Offenbarung umfasst; und
5 ist ein Blockschaubild von funktionalen Schichten der veranschaulichenden Cloud-Computing-Umgebung von 4 gemäß einer Ausführungsform der vorliegenden Offenbarung.

AUSFÜHRLICHE BESCHREIBUNG
Ausführliche Ausführungsformen der beanspruchten Strukturen und Verfahren werden hierin offenbart; allerdings ist nachvollziehbar, dass die offenbarten Ausführungsformen nur zur Veranschaulichung der beanspruchten Strukturen und Verfahren dienen, die in verschiedenen Formen verkörpert sein können. Diese Erfindung kann jedoch in vielen verschiedenen Formen verkörpert werden und sollte nicht als Einschränkung auf die hierin erläuterten veranschaulichenden Ausführungsformen aufgefasst werden. Diese beispielhaften Ausführungsformen werden stattdessen bereitgestellt, sodass diese Offenbarung gründlich und vollständig ist und dem Fachmann den Schutzumfang dieser Erfindung umfassend vermittelt. In der Beschreibung können Details von wohlbekannten Merkmalen und Techniken weggelassen werden, um eine unnötige Unverständlichkeit der dargestellten Ausführungsformen zu vermeiden.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailintegrationsebene handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen enthalten, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine konkrete Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zum Ausführen von Anweisungen beibehalten und speichern kann. Das durch einen Computer lesbare Speichermedium kann zum Beispiel eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiter-Speichereinheit oder jede geeignete Kombination aus dem Vorgenannten sein, es ist aber nicht darauf beschränkt. Zu einer nicht erschöpfenden Liste von spezifischeren Beispielen des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer CD-ROM, eine DVD, ein Arbeitsspeicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination des Vorgenannten. Ein durch einen Computer lesbares Speichermedium soll, wie hierin verwendet, nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder andere Übertragungsmedien ausbreiten (z.B. durch ein Lichtwellenleiterkabel geleitete Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben sind, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In dem letzteren Szenario kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch jeden Typ von Netzwerk verbunden werden, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann zu einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, feldprogrammierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Veranschaulichungen von Ablaufplänen und/oder Blockschaubildern von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es sollte klar sein, dass jeder Block der Ablaufplanveranschaulichungen und/oder der Blockschaubilder und Kombinationen von Blöcken in den Ablaufplanveranschaulichungen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen umgesetzt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, sodass die über den Prozessor des Computers bzw. eine andere programmierbare Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder angegebenen Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, sodass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Arbeitsschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen durch einen Computer umgesetzten Prozess zu erzeugen, sodass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder angegebenen Funktionen/Schritte umsetzen.
Die Ablaufpläne und Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder den Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Umsetzen der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Umsetzungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt auftreten. Zum Beispiel können zwei nacheinander gezeigte Blöcke tatsächlich im Wesentlichen parallel ausgeführt werden, oder die Blöcke können manchmal in der umgekehrten Reihenfolge ausgeführt werden, was von der beteiligten Funktionalität abhängt. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufplandarstellungen sowie Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplandarstellung durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die angegebenen Funktionen oder Handlungen durchführen oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die im Folgenden beschriebenen beispielhaften Ausführungsformen stellen ein System, ein Verfahren und ein Programmprodukt für Sprachantworten bereit. Daher verfügt die vorliegende Ausführungsform über die Fähigkeit, das technische Gebiet von Sprachantwort-Systemen zu verbessern, indem Benutzer mit Sprachbehinderung in die Lage versetzt werden, mit den Sprachantwort-Systemen durch Verwenden von einer oder mehreren verbundenen Einheiten zu kommunizieren, einschließlich alternativen und augmentativen Datenübertragungseinheiten. Insbesondere kann die vorliegende Erfindung ein Sammeln von Benutzerdaten von mindestens einer verbundenen Einheit umfassen. Die vorliegende Erfindung kann ein Schulen eines Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten umfassen. Die vorliegende Erfindung kann ein Identifizieren eines Wecksignals auf Grundlage des geschulten Sprachantwort-Systems umfassen. Die vorliegende Erfindung kann ein Bestimmen umfassen, dass eine Benutzerinteraktion auf Grundlage des Identifizierens des Wecksignals beabsichtigt ist. Die vorliegende Erfindung kann ein Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit umfassen.
Wie vorher beschrieben, können Sprachstörungen, einschließlich Sprachbehinderungen und/oder andere Sprachartikulationsstörungen zu einer Unfähigkeit führen, Sprache zu bilden und/oder entsprechende Wörter zu verwenden, um einen Sprachbefehl zu formulieren, der von einem Sprachantwort-System einer künstlichen Intelligenz (KI) verstanden werden kann. Krankheiten, die zu Ermüdungs- und/oder anderen körperlichen Zuständen führen, können ebenfalls eine Unfähigkeit einer Person bewirken, einen Sprachbefehl zu übermitteln und/oder eine ausführliche Anforderung an ein Sprachantwort-System einer KI auszusprechen.
Daher kann es unter anderem von Vorteil sein, ein Mittel bereitzustellen, mit dem ein System einer künstlichen Intelligenz (KI) menschliche Konversationen beobachten kann, einschließlich Gespräche in der Umgebung, wobei es jedoch nicht darauf beschränkt ist, und Verhaltens- und/oder biometrische Signale nutzen kann, um Menüoptionen zu erlernen und benutzerdefinierte Sprachmenüs zu generieren, die Benutzer mit Sprachbehinderungen beim Ausführen von beabsichtigten Sprachantworten oder Sprachbefehlen unterstützen können.
Gemäß mindestens einer Ausführungsform kann ein System einer künstlichen Intelligenz (KI) vorhersagen, wann und ob ein Benutzer einen Sprachbefehl übermitteln möchte und/oder möglicherweise unfähig ist, einen Sprachbefehl zu übermitteln.
Gemäß mindestens einer Ausführungsform können Heuristiken und/oder Gesundheitszustände des Benutzers zum Vorhersagen in Betracht gezogen werden, wann und ob ein Benutzer einen Sprachbefehl übermitteln möchte und/oder möglicherweise unfähig ist, einen Sprachbefehl zu übermitteln. Heuristiken und/oder Gesundheitszustände des Benutzers können auch verwendet werden, um ein Thema eines Sprachbefehls und/oder einer Sprachanforderung vorherzusagen und optional ein gesprochenes Menü für den Benutzer bereitzustellen, aus dem dieser mindestens einen entsprechenden Sprachbefehl auswählen kann.
Gemäß mindestens einer Ausführungsform kann das Sprachantwort-Programm sicherstellen, dass Sprachantwort-Daten der Benutzer und/oder integrierte Datenquellen nicht in irgendwelchen anderen Systemen ohne volle Kenntnis und Zustimmung des Benutzers verwendet werden können. Über Systemintegrationen können Benutzer des Sprachantwort-Programms die Option erhalten, Werkzeuge wie biometrische loT-Sensoren, augmentative und alternative Datenübertragungseinheiten (AAC-Einheiten) und/oder Video-Streams zu integrieren, um eine erweiterte Funktionalität bereitzustellen und die eigene Instanz des Sprachantwort-Programms des Benutzers weiter zu schulen. Für den Integrationsprozess mit dem Sprachantwort-Programm kann ein explizites Opt-in erfolgen, und alle gesammelten Daten dürfen nicht außerhalb der eigenen persönlichen Instanz des Sprachantwort-Programms des Benutzers geteilt werden.
Unter Bezugnahme auf 1 wird eine beispielhafte vernetzte Computerumgebung 100 gemäß einer Ausführungsform dargestellt. Die vernetzte Computerumgebung 100 kann einen Computer 102 mit einem Prozessor 104 und einer Datenspeichereinheit 106 umfassen, der befähigt ist, ein Software-Programm 108 und ein Sprachantwort-Programm 110a auszuführen. Die vernetzte Computerumgebung 100 kann auch einen Server 112 umfassen, der befähigt ist, ein Sprachantwort-Programm 110b auszuführen, das mit einer Datenbank 113 und einem Datenübertragungsnetzwerk 116 interagieren kann. Die vernetzte Computerumgebung 100 kann eine Mehrzahl von Computern 102 und Servern 112 umfassen, von denen nur jeweils einer gezeigt ist. Das Datenübertragungsnetzwerk 116 kann verschiedene Typen von Datenübertragungsnetzwerken umfassen, wie zum Beispiel ein Weitverkehrsnetzwerk (WAN), ein lokales Netzwerk (LAN), ein Telekommunikationsnetzwerk, ein drahtloses Netzwerk, ein öffentliches Wählvermittlungsnetzwerk und/oder ein Satellitennetzwerk. Die verbundene Einheit 118 wird, wie gezeigt, als eine eigene getrennte Entität dargestellt, kann aber in einen anderen Teil der Computernetzwerk-Umgebung integriert werden. Es sollte klar sein, dass 1 nur eine Veranschaulichung einer Umsetzung bereitstellt und keine Einschränkungen hinsichtlich der Umgebungen impliziert, in denen verschiedene Ausführungsformen umgesetzt werden können. An den dargestellten Umgebungen können viele Modifizierungen auf Grundlage von Auslegungs- und Umsetzungsanforderungen vorgenommen werden.
Der Client-Computer 102 kann mit dem Server-Computer 112 über das Datenübertragungsnetzwerk 116 Daten austauschen. Das Datenübertragungsnetzwerk 116 kann Verbindungen enthalten, wie beispielsweise drahtgebundene, drahtlose Datenübertragungsverbindungen oder Lichtwellenleiterkabel. Wie unter Bezugnahme auf 3 erörtert wird, kann der Server-Computer 112 jeweils interne Komponenten 902a und externe Komponenten 904a umfassen, und der Client-Computer 102 kann jeweils interne Komponenten 902b und externe Komponenten 904b umfassen. Der Server-Computer 112 kann auch in einem Cloud-Computing-Dienstmodell wie zum Beispiel Software as a Service (SaaS), Platform as a Service (PaaS) oder Infrastructure as a Service (laaS) arbeiten. Der Server 112 kann sich auch in einem Cloud-Computing-Nutzungsmodell befinden, wie zum Beispiel einer Private Cloud, Community Cloud, Public Cloud oder Hybrid Cloud Der Client-Computer 102 kann zum Beispiel eine mobile Einheit, ein Telefon, ein Personal Digital Assistant, ein Netbook, ein Laptop-Computer, ein Tablet-Computer, ein Desktop-Computer oder jeder Typ von Datenverarbeitungseinheiten sein, der fähig ist, ein Programm auszuführen, auf ein Netzwerk zuzugreifen und auf eine Datenbank 114 zuzugreifen. Gemäß verschiedenen Umsetzungen der vorliegenden Ausführungsform kann das Sprachantwort-Programm 110a, 110b mit einer Datenbank 114 interagieren, die in verschiedenen Speichereinheiten eingebettet sein kann, wie zum Beispiel, jedoch nicht darauf beschränkt, eine Computer-/mobile Einheit 102, ein vernetzter Server 112 oder ein Cloud-Speicherdienst.
Gemäß der vorliegenden Ausführungsform kann ein Benutzer, der einen Client-Computer 102 oder einen Server-Computer 112 verwendet, (jeweils) das Sprachantwort-Programm 110a, 110b verwenden, um Benutzer mit Sprachbehinderung in die Lage zu versetzen, mit Sprachantwort-Systemen durch Verwenden von einer oder mehreren verbundenen Einheiten (z.B. die verbundene Einheit 118), einschließlich alternativen oder augmentativen Datenübertragungseinheiten zu kommunizieren. Das Sprachantwort-Verfahren wird hierin später ausführlicher unter Bezugnahme auf 2 erörtert.
Unter folgender Bezugnahme auf 2 wird ein Betriebs-Ablaufplan dargestellt, der den beispielhaften Sprachantwort-Prozess 200 veranschaulicht, der von dem Sprachantwort-Programm 110a und 110b gemäß mindestens einer Ausführungsform verwendet wird.
In einem Schritt 202 sammelt das Sprachantwort-Programm 110a, 110b Benutzerdaten. Ein Datensammelmodul des Sprachantwort-Programms 110a, 110b kann Daten sammeln, einschließlich, jedoch nicht auf historische Verhaltensdaten und/oder Konfigurationsdaten beschränkt, sowie neue Daten, die von verbundenen Einheiten (z.B. die verbundene Einheit 118) des Benutzers zugeführt und in Echtzeit gesammelt werden.
Das Datensammelmodul kann Verhaltens-, biometrische und/oder Mobilitätsmuster von einem Benutzer mit Sprachbehinderung und/oder einem anderen Benutzer aufnehmen und kann die aufgenommenen (d.h. gesammelten) Daten in einem Wissenskorpus (z.B. der Datenbank 114) speichern.
Wearable-Einheiten, einschließlich Ringe, Brillen, Kleidung (z.B. mit Herz- und/oder Atmungssensoren), Uhren, Schuhe und/oder Fitness-Tracker des Internet of Things (loT) können unter anderem Daten dem Datensammelmodul zuführen, wobei diese Daten Feed-Daten einer Kamera und/oder Daten irgendeiner biometrischen IoT-Sensoreinheit umfassen können.
Daten können auch von einer Vielfalt (z.B. einer Kombination) von augmentativen und alternativen Datenübertragungs- (AAC) Einheiten gesammelt werden. Eine AAC-Einheit kann eine Einheit sein, die eine Datenübertragung für ein oder mehrere Einschränkungs- und/oder Behinderungsmuster ermöglicht und/oder erleichtert, das bzw. die sich bei Personen mit einer oder mehreren expressiven Kommunikationsstörungen zeigen. Alternative Datenübertragungseinheiten können von Personen verwendet werden, die zwar über ein gewisses Sprachvermögen verfügen, aber entweder nicht verstanden werden können oder nur über eine begrenzte Sprachfähigkeit verfügen. Alternative Datenübertragungseinheiten können von Personen verwendet werden, die kein Sprachvermögen haben und sich auf ein anderes Datenübertragungsverfahren verlassen, um ihre Gedanken auszudrücken (z.B. unter anderem Wünsche, Bedürfnisse).
Daten können von Video-Einheiten und/oder Sprach-Streaming-Einheiten gesammelt werden. Ein Video-Stream von Rohdaten kann nach dem Sammeln durch ein Bild- und/oder Video-Verarbeitungssystem übergeben werden, um Indikatoren einer Interaktion für eine Modelleingabe zu klassifizieren (z.B. um erhobene Hände, blinzelnde Augen usw.) zu identifizieren. Das Bild- und/oder Video-Verarbeitungssystem kann unter anderen Lösungen die Lösung Watson™ Visual Recognition von IBM sein (Watson und alle Marken auf Grundlage von Watson sind Marken oder eingetragene Marken der International Business Machines Corporation in den Vereinigten Staaten und/oder anderen Ländern). Die Lösung Watson™ Visual Recognition kann Deep-Learning-Algorithmen verwenden, um Bilder für Gesichter (z.B. Gesichtserkennung), Szenen, Objekte und/oder jeden anderen Inhalt zu analysieren, und den analysierten visuellen Inhalt zu kennzeichnen, zu klassifizieren und zu durchsuchen.
Stream-Rohdaten von Sprache, die von einer Sprach-Streaming-Einheit gesammelt wurden, können einen Sprache-zu-Text-Prozessor durchlaufen, wie zum Beispiel Watson™ Speech to Text, sodass der Inhalt mit Algorithmen einer natürlichen Sprachverarbeitung (NLP) analysiert werden kann. NLP-Algorithmen wie zum Beispiel Watson™ Tone Analyzer (z.B. zum dynamischen Bestimmen eines Zufriedenheits- oder Frustrationsniveaus eines Benutzers) und Gefühlsanalyse (z.B. zum Bestimmen, ob ein Benutzer unter anderem temperamentvoll, ärgerlich, enttäuscht, traurig oder glücklich ist), Anwendungsprogrammierschnittstellen (APIs) sowie Watson™ Natural Language Classifier (z.B. zum Sammeln von Sprachinhalt und Schlüsselwort-Indikatordaten) können verwendet werden.
Zum Beispiel kann das Sprachantwort-Programm 110a, 110b in einer medizinischen Einrichtung verwendet und geschult werden, in der mindestens ein Benutzer des Sprachantwort-Programms 110a, 110b eine Sprachbehinderung aufweist und keinen gesprochenen Befehl wiedergeben kann. Die Daten, die durch das Sprachantwort-Programm 110a, 110b in dieser Instanz gesammelt werden, können beides, Befehle, die durch den Benutzer mit Sprachbehinderung gesprochen wurden, als auch Befehle, die durch jedes Mitglied des medizinischen Hilfs-Teams gesprochen wurden, sowie eine sich daraus ergebende Änderung in dem bzw. den Verhaltens- und/oder biometrischen Parametern umfassen, die durch eine verbundene und/oder Wearable-Einheit identifiziert werden.
In einem Schritt 204 wird das Sprachantwort-System auf Grundlage der gesammelten Daten geschult. Ein Long Short-Term Memory (LSTM) eines rekurrenten neuronalen Netzwerks (RNN) für eine Zeitreihensequenzierung (z.B. für verbundene Sequenzierungsmuster wie beispielsweise Sprache) kann verwendet werden, um unter anderen Benutzern ein beabsichtigtes Thema (z.B. ein Thema, ein Benutzer-Thema) einer Sprachanforderung eines Benutzers mit Sprachbehinderung vorherzusagen.
Die durch das Datensammelmodul gesammelten Daten, wie vorher oben unter Bezugnahme auf den Schritt 202 beschrieben, können interpretiert werden, um Verhaltens-, biometrische und/oder Mobilitätsmusterdaten des Benutzers zu identifizieren (z.B. einen Benutzer mit Sprachbehinderung und/oder jeden anderen Benutzer des Sprachantwort-Programms 110a, 110b), und um ein beabsichtigtes Thema und/oder eine Anforderung eines Benutzers vorherzusagen. Dies kann ferner durch Verwenden des LSTM-RNN-Modells erfolgen, das im Folgenden ausführlicher unter Bezugnahme auf einen Schritt 208 beschrieben wird.
In einem Schritt 206 wird ein Wecksignal identifiziert. Sobald der Wissenskorpus (d.h. die Datenbank 114) ausgereift ist (z.B. sobald genügend Daten gesammelt worden sind, um eine wissensbasierte Vorhersage in Bezug auf ein zukünftiges Resultat vorzunehmen), können alle Daten, die von einer verbundenen Einheit gesammelt worden sind (unter anderem z.B. eine verbundene Wearable-Einheit, ein loT-Sensor, eine Kamera), die eine Änderung in einem Verhaltens- und/oder einem biometrischen Parameter eines Benutzers mit Sprachbehinderung verfolgen, die Einheit der künstlichen Intelligenz (KI) wecken und die Interaktion der Einheit mit dem Benutzer auslösen.
Eine verbundene loT-Einheit kann dem Gespräch eines Benutzers zuhören, bis ein Wecksignal identifiziert wird, und kann mit dem Speichern von Daten erst beginnen, wenn das Wecksignal identifiziert worden ist. Ein Benutzer eines Sprachantwort-Programms 110a, 110b kann eine Hörfunktion jedoch abschalten und eine verbundene loT-Einheit nur auslösen, um mit dem Abhören zu beginnen, wenn ein Befehl ausgegeben wird.
In dem Schritt 208 bestimmt das Sprachantwort-Programm 110a, 110b, dass der Benutzer mit einer verbundenen Einheit interagieren möchte. Nach dem Wakeup der Einheit der künstlichen Intelligenz (KI) können alle durch die verbundenen Einheiten gesammelten Daten an einen Random-Forest-Algorithmus übergeben werden, um eine binäre Klassifizierung vorzunehmen (z.B. zum Klassifizieren der Daten, die interpretiert werden sollen, ob der Benutzer mit dem System auf der Grundlage einer Klassifizierungsregel interagieren möchte oder dies ablehnt). Zum Beispiel kann das Sprachantwort-Programm 110a, 110b die gesamten Eingaben von dem Datensammelmodul übernehmen, und kann die Eingaben einen Random-Forest-Algorithmus durchlaufen lassen, um durch Verwenden einer binären Klassifizierung (wobei z.B. 0 Daten darstellt, die nicht benötigt werden und dass der Benutzer keine Interaktion wünscht, und 1 Daten darstellt, die benötigt werden und dass der Benutzer eine Interaktion wünscht) zu bestimmen, ob die Eingabe benötigt wird (z.B. ob der Benutzer eine Interaktion wünscht).
Wenn das Sprachantwort-Programm 110a, 110b auf Grundlage der Klassifizierungsregel bestimmt, dass der Benutzer mit dem System interagieren möchte, können die gesammelten Daten an ein Deep-Reinforcement-Learning-Modell übergeben werden (d.h. das LSTM-RNN-Modell), um zu bestimmen, wie ein Interagieren mit dem Benutzer fortgesetzt werden soll.
Die Annahme oder Ablehnung einer Interaktion eines Benutzers mit dem Sprachantwort-Programm 110a, 110b kann in das Deep-Reinforcement-Learning-Modell zurückgemeldet werden, um das Modell weiter abzustimmen. Eine negative Benutzerrückmeldung kann als eine Strafe wirken, und eine positive Benutzerrückmeldung kann als eine Auszeichnung wirken. Das Deep-Reinforcement-Learning-Modell kann als Rückmeldungsschleife wirken und kann Daten als positiv oder negativ klassifizieren, um das Modell weiter in Richtung eines gewünschten Resultats anzupassen. Damit kann das Deep-Reinforcement-Learning-Modell beim Anpassen des aktuellen Zustands und beim Bestimmen einer zukünftigen Aktion für eine Interaktion mit dem Sprachantwort-Programm 110a, 110b unterstützt werden.
In einem Schritt 210 interagiert das Sprachantwort-Programm 110a, 110b mit einem Benutzer. Zum Interagieren mit dem Benutzer mit Sprachbehinderung (d.h. dem Benutzer) kann das Sprachantwort-Programm 110a, 110b dem Benutzer ein benutzerdefiniertes Menü bereitstellen, das einem vorhergesagten Thema zugehörig ist. Das Sprachantwort-Programm kann Verhaltens- und oder biometrische Signale berücksichtigen, die durch das Datensammelmodul gesammelt wurden, wie vorher unter Bezugnahme auf den Schritt 202 oben beschrieben, um eine Sprachanforderung zu bestimmen, die ausgeführt werden kann. Eine Benutzerrückmeldung, einschließlich Zustimmungs- und/oder Ablehnungsrückmeldung (z.B. positive und/oder negative biometrische und/oder Verhaltensdaten, die als Resultat von gestellten Fragen empfangen wurden) können analysiert werden, während durch ein Sprachmenü navigiert wird. Das Sprachantwort-Programm 110a, 110b kann durch ein Sprachmenü navigieren, bis ein benutzerdefiniertes Menü, das einem vorhergesagten Thema zugehörig ist, bestimmt werden kann und ein Sprachbefehl dementsprechend ausgeführt werden kann.
In Fortsetzung des Beispiels des Schritts 202 oben kann ein Benutzer mit Sprachbehinderung in einer medizinischen Einrichtung gefragt werden „Bist du hungrig?“ und „Bist du durstig?“. Ein visuelles Signal kann identifiziert werden (z.B. ein Gesichtsausdruck des Benutzers) nach der Frage „Bist du durstig?“, und der nächste Satz von Fragen kann „Möchtest du Wasser?“ und „Möchtest du Tee?“ umfassen. Diese Daten (z.B. Videodaten), die von einer verbundenen und/oder Wearable-Einheit des Sprachantwort-Programms 110a, 110b beobachtet werden, können zum Generieren des Wissenskorpus und zum Identifizieren eines beabsichtigten Themas sowie eines zugehörigen hierarchischen Sprachmenüs verwendet werden.
Ein LSTM-RNN-Modell kann hier verwendet werden, um die Sprache eines Benutzers zu verarbeiten und zu bestimmen, wie auf Grundlage der Sprache des Benutzers fortgesetzt werden soll. Das LSTM-RNN-Modell kann eine künstliche rekurrente neuronale Netzwerkarchitektur sein, die auf dem Gebiet von Deep Learning verwendet wird, das auf Grundlage von Rückmeldungsverbindungen funktioniert, die von den standardmäßigen vorwärtsgerichteten neuronalen Netzwerken verschieden sind. Das LSTM-RNN-Modell kann nicht nur einzelne Datenpunkte verarbeiten (z.B. Bilder, die von dem Benutzer durch eine oder mehrere verbundene Einheiten erhalten werden), sondern kann auch vollständige Sequenzen von Daten verarbeiten (z.B. Sprach- oder Videodaten der Interaktion des Benutzers mit der bzw. den Einheiten). Zum Beispiel können LSTM-RNN-Modelle auf Aufgaben angewendet werden, wie zum Beispiel nicht segmentierte Spracherkennung, Handschriftenerkennung und Anomalie-Erkennung in Netzwerkverkehr- oder Eindringungserkennungs-Systemen.
In der vorliegenden Anwendung kann das LSTM-RNN-Modell verwendet werden, um die Sprachanforderung eines Benutzers durch Herunterbrechen von beobachteten Teilen von Sprache in sequenzielle, abhängige Eingaben zum Vorhersagen des beabsichtigten Themas eines Benutzers zu verarbeiten. Diese Sprache-zu-Text-Fähigkeit kann so funktionieren, dass die eingegebene Sprache die sequenzielle abhängige Eingabe ist, und das vorhergesagte beabsichtigte Thema kann das sich daraus ergebene Resultat auf Grundlage des LSTM-RNN-Modells sein.
Das LSTM-RNN-Modell kann hier verwendet werden, um den Wissenskorpus (z.B. die Datenbank 114) zu verbessern, indem gesammelte Verhaltenseingaben, Körpersprache und/oder biometrische Signale mit einem beabsichtigten Thema und/oder einem hierarchischen, dem beabsichtigten Thema zugehörigen Sprachmenü korreliert werden.
Um Daten mit bestimmten Aspekten eines Sprachmenüs zu korrelieren, kann das Sprachmenü in dem Wissenskorpus (z.B. der Datenbank 114) definiert und/oder identifiziert werden. Das Sprachantwort-Programm 110a, 110b kann ein entsprechendes Sprachmenü auf Grundlage von gesammelten Daten identifizieren, zum Beispiel durch Identifizieren von Befehlen, die aufgrund des Typs von Daten, die empfangen werden (z.B. unter anderem auf Grundlage der spezifischen Verhaltenseingabe und/oder der biometrischen Signale) am häufigsten sind.
Gemäß mindestens einer Ausführungsform kann das Sprachantwort-Programm 110a, 110b auf Grundlage der Interaktion mit dem Benutzer im Laufe der Zeit ein Sprachmenü erstellen und kann damit beginnen, bereits vorhandene Sprachmenüs zu verwenden, die bestimmten Bereichen auf der bzw. den verbundenen loT-Einheiten zugehörig sind. Wenn der Benutzer zum Beispiel sagt „Alexa hat eine Zeitschaltuhr eingestellt“, kann die IoT-Einheit darauf antworten, indem sie beginnt, den Benutzer durch ein zugehöriges bereits vorhandenes hierarchisches Sprachmenü „Zeitschaltuhr“ nach unten zu führen, indem unter anderem gefragt wird „ "Wann soll die Zeitschaltuhr aufgerufen werden?" und „Wieviel Zeit?“. Das Sprachantwort-Programm 110a, 110b kann lernen, mit einem bereits vorhandenen Sprachmenü auf Grundlage weiterer Befehle eines Benutzer zu interagieren, wie unter anderem zum Beispiel „Zeit einstellen“, „Stopppunkt einstellen“, „Erinnere mich“ oder „ich darf nicht vergessen“. Auf Grundlage eines Empfangs dieser zugehörigen Befehle kann das Sprachantwort-Programm 110a, 110b erkennen, den Benutzer in das hierarchische Sprachmenü „Zeitschaltuhr“ zu versetzen, wie oben beschrieben.
Verhaltens- und/oder biometrische Daten, einschließlich gesprochener Text und/oder Ton können als einer Aktivität eines Benutzers zugehörig interpretiert werden (unter anderem z.B. essen, trinken, fernsehen und/oder Musik anhören), und das Menü kann entsprechend kundenspezifisch erstellt werden. Muster im Verhalten eines Benutzers (d.h. Verhaltensmuster) können beim Identifizieren des beabsichtigten Themas helfen, wie vorher oben unter Bezugnahme auf den Schritt 202 beschrieben wurde, und das Sprachantwort-Programm 110a, 110b kann einen hierarchischen Satz von Fragen auf Grundlage einer beobachteten Interaktion oder eines Satzes von Interaktionen mit dem Benutzer mit Behinderung und der Einheit einer künstlichen Intelligenz (KI) erstellen.
Gemäß mindestens einer Ausführungsform kann das Sprachantwort-Programm 110a, 110b ein nicht routinemäßiges Ereignis bearbeiten (z.B. eine beobachtete Körperbewegung, die sich von der bzw. den normalen Körperbewegungen des Benutzers unterscheidet), wie durch das Sprachantwort-Programm 110a, 110b und/oder jede verbundene Einheit bzw. Einheiten bestimmt wird, oder ein Ereignis, für das keine vorherigen Daten vorhanden sind, die die Anforderung des Benutzers betreffen, die von dem Sprachantwort-Programm 110a, 110b verwendet werden kann, indem mit einem Satz von Mustern begonnen wird (z.B. gegenwärtige Gesundheitszustände und/oder Heuristiken des Benutzers), die entweder bereits vorhanden sind (z.B. auf der loT-Einheit vorkonfiguriert) oder auf Grundlage von Benutzer-Interaktionen und/oder beobachteten Verhalten erlernt wurden, und/oder einen Telefonanruf an eine echte Person initiieren kann (z.B. eine Person, die auf einem Profil eines Benutzers des Sprachantwort-Programms 110a, 110b konfiguriert ist), die das Sprachantwort-Programm 110a, 110b unterstützen kann, das nicht routinemäßige Ereignis zu verstehen.
Wenn in dem Schritt 208 das Sprachantwort-Programm 110a, 110b bestimmt, dass der Benutzer keine Interaktion gewünscht hat, würde das Programm enden.
Es sollte klar sein, dass 2 nur eine Veranschaulichung einer Ausführungsform bereitstellt und keine Einschränkungen hinsichtlich dessen impliziert, wie verschiedene Ausführungsformen umgesetzt werden können. An der bzw. den dargestellten Ausführungsformen können viele Modifizierungen auf Grundlage von Auslegungs- und Umsetzungsanforderungen vorgenommen werden.
3 ist ein Blockschaubild 900 von internen und externen Komponenten von in 1 dargestellten Computern gemäß einer veranschaulichenden Ausführungsform der vorliegenden Erfindung. Es sollte klar sein, dass 3 nur eine Veranschaulichung einer Umsetzung bereitstellt und keine Einschränkungen hinsichtlich der Umgebungen impliziert, in denen verschiedene Ausführungsformen umgesetzt werden können. An den dargestellten Umgebungen können viele Modifizierungen auf Grundlage von Auslegungs- und Umsetzungsanforderungen vorgenommen werden.
Ein Datenverarbeitungssystem 902, 904 ist repräsentativ für jede elektronische Einheit, die fähig ist, durch eine Maschine lesbare Programmanweisungen auszuführen. Das Datenverarbeitungssystem 902, 904 kann für ein Smartphone, ein Computersystem, ein PDA oder andere elektronische Einheiten stehen. Zu Beispielen für Datenverarbeitungssysteme, Umgebungen und/oder Konfigurationen, die durch das Datenverarbeitungssystem 902, 904 dargestellt werden können, zählen Personal-Computer-Systeme, Server-Computersysteme, Thin Clients, Thick Clients, Handheld- oder Laptop-Einheiten, Multiprozessorsysteme, Systeme auf der Grundlage von Mikroprozessoren, Netzwerk-PCs, Minicomputersysteme und verteilte Cloud-Computing-Umgebungen, die beliebige der oben genannten Systeme oder Einheiten und umfassen, sie sind aber nicht darauf beschränkt.
Der Client-Computer 102 des Benutzers und der Netzwerkserver 112 können jeweilige Sätze von internen Komponenten 902a, 902b und externe Komponenten 904a, 904b umfassen, die in 3 veranschaulicht sind. Jeder der Sätze von internen Komponenten 902a, 902b umfasst einen oder mehrere Prozessoren 906, einen oder mehrere durch einen Computer lesbare RAMs 908 und einen oder mehrere durch einen Computer lesbare ROMs 910 auf einem oder mehreren Bussen 912, und ein oder mehrere Betriebssysteme 914 und eine oder mehrere durch einen Computer lesbare konkrete Speichereinheiten 916. Das eine oder die mehreren Betriebssysteme 914, das Software-Programm 108 und das Sprachantwort-Programm 110a in dem Client-Computer 102 und das Sprachantwort-Programm 110b in dem Netzwerkserver 112 können auf einem oder mehreren durch einen Computer lesbaren konkreten Speichereinheiten 916 zur Ausführung durch einen oder mehrere Prozessoren 906 über einen oder mehrere RAMs 908 gespeichert werden (die in der Regel einen Cache-Arbeitsspeicher umfassen). In der in 3 veranschaulichten Ausführungsform ist jede der durch einen Computer lesbaren konkreten Speichereinheiten 916 ein Magnetplattenspeicher eines internen Festplattenlaufwerks. Alternativ ist jede der durch einen Computer lesbaren konkreten Speichereinheiten 916 eine Halbleiter-Speichereinheit wie zum Beispiel der ROM 910, EPROM, Flash-Arbeitsspeicher oder jede andere durch einen Computer lesbare konkrete Speichereinheit, die ein Computerprogramm und digitale Informationen speichern kann.
Jeder Satz von internen Komponenten 902a, 902b umfasst auch ein R/W-Laufwerk oder eine Schnittstelle 918, aus der gelesen und von der auf eine oder mehrere tragbare, durch einen Computer lesbare konkrete Speichereinheiten 920 geschrieben wird, wie zum Beispiel ein CD-ROM, eine DVD, ein Arbeitsspeicher-Stick, ein Magnetband, eine Magnetplatte, eine optische Platte oder eine Halbleiter-Speichereinheit. Ein Software-Programm, wie zum Beispiel das Software-Programm 108, und das Sprachantwort-Programm 110a und 110b können auf einer oder mehreren der jeweiligen tragbaren, durch einen Computer lesbaren konkreten Speichereinheiten 920 gespeichert, über das jeweilige R/W-Laufwerk oder die Schnittstelle 918 gelesen und auf die jeweilige Festplatte 916 geladen werden.
Jeder Satz der internen Komponenten 902a, 902b kann auch Netzwerkadapter (oder Switch-Anschlusskarten) oder Schnittstellen 922 wie zum Beispiel TCP/IP-Adapterkarten, drahtlose WLAN-Schnittstellenkarten oder drahtlose 3G- oder 4G-Schnittstellenkarten oder andere drahtgebundene oder drahtlose DatenübertragungsVerbindungen umfassen. Das Software-Programm 108 und das Sprachantwort-Programm 110a in dem Client-Computer 102 und das Sprachantwort-Programm 110b in dem Netzwerk-Servercomputer 112 können aus einem externen Computer (z.B. Server) über ein Netzwerk (zum Beispiel das Internet, ein lokales Netzwerk oder ein anderes Weitverkehrsnetz) und jeweilige Netzwerkadapter oder Schnittstellen 922 heruntergeladen werden. Von den Netzwerkadaptern (oder Switch-Anschlussadaptern) oder den Schnittstellen 922 werden das Software-Programm 108 und das Sprachantwort-Programm 110a in den Client-Computer 102, und das Sprachantwort-Programm 110b im Netzwerk-Servercomputer 112 auf das jeweilige Festplattenlaufwerk 916 geladen. Das Netzwerk kann Kupferkabel, Lichtwellenleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen.
Jeder der Sätze von externen Komponenten 904a, 904b kann einen Computer-Anzeigemonitor 924, eine Tastatur 926 und eine Computermaus 928 umfassen. Die externen Komponenten 904a, 904b können auch Berührungsbildschirme, virtuelle Tastaturen, Touch-Pads, Zeigeeinheiten und andere personengebundene Schnittstelleneinheiten (Human Interface Devices) umfassen. Jeder der Sätze von internen Komponenten 902a, 902b umfasst auch Einheitentreiber 930 für eine Schnittstellenbildung mit dem Computer-Anzeigemonitor 924, der Tastatur 926 und der Computermaus 928. Die Einheitentreiber 930, das R/W-Laufwerk bzw. die Schnittstelle 918 und der Netzwerkadapter bzw. die Schnittstelle 922 können Hardware und Software aufweisen (die in der Speichereinheit 916 und/oder dem ROM 910 gespeichert sind).
Es sollte von vornherein klar sein, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud Computing enthält, dass eine Umsetzung der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist. Stattdessen können Ausführungsformen der vorliegenden Erfindung gemeinsam mit jedem beliebigen Typ von jetzt bekannter oder später entwickelter Datenverarbeitungsumgebung umgesetzt werden.
Cloud Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Arbeitsspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften, mindestens drei Dienstmodelle und mindestens vier Nutzungsmodelle umfassen.
Die Eigenschaften sind wie folgt:

On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter des Dienstes erforderlich ist.
Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt, und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Ressourcennutzung kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.

Die Dienstmodelle sind wie folgt:

Software as a Service (SaaS): Die für den Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur ausgeführten Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. eine auf dem Web beruhende eMail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, Verarbeitung, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).

Die Nutzungsmodelle sind wie folgt:

Private Cloud: Die Cloud-Infrastruktur wird ausschließlich für eine Organisation betrieben. Sie kann von der Organisation oder einer Drittpartei verwaltet werden und kann innerhalb oder außerhalb von Geschäftsräumen vorhanden sein.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine bestimmte Community, die gemeinsame Problemstellungen hat (z.B. Berücksichtigung von Zielsetzung, Sicherheitsanforderungen, Richtlinien und Konformität). Sie kann von den Organisationen oder einer Drittpartei verwaltet werden und kann innerhalb oder außerhalb der Geschäftsräume vorhanden sein.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und gehört einer Organisation, die Cloud-Dienste verkauft.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die eine Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastausgleich zwischen Clouds).

Eine Cloud-Computing-Umgebung ist dienstorientiert, wobei der Schwerpunkt auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität liegt. Im Mittelpunkt von Cloud Computing steht eine Infrastruktur, die ein Netzwerk von miteinander verbundenen Knoten aufweist.
Unter folgender Bezugnahme auf 4 wird eine veranschaulichende Cloud-Computing-Umgebung 1000 dargestellt. Wie gezeigt, weist die Cloud-Computing-Umgebung 1000 einen oder mehrere Cloud-Computing-Knoten 100 auf, mit denen lokale Datenverarbeitungseinheiten, die von Nutzern der Cloud verwendet werden, wie beispielsweise Personal Digital Assistant (PDA) oder Mobiltelefon 1000A, Desktop-Computer 1000B, Laptop-Computer 1000C und/oder Fahrzeug-Computersystem 1000N, Daten austauschen können. Die Knoten 100 können untereinander Daten austauschen. Sie können physisch oder virtuell in einem oder mehreren Netzwerken gruppiert sein (nicht gezeigt), wie beispielsweise Private, Community, Public oder Hybrid Cloud, wie hierin oben beschrieben, oder in einer Kombination davon. Damit hat die Cloud-Computing-Umgebung 1000 die Möglichkeit, eine Infrastruktur, Plattformen und/oder Software als Dienste anzubieten, für die ein Cloud-Nutzer keinerlei Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sollte klar sein, dass die in 4 gezeigten Typen von Datenverarbeitungseinheiten 1000A bis N nur zur Veranschaulichung dienen sollen, und dass die Datenverarbeitungsknoten 100 und die Cloud-Computing-Umgebung 1000 mit jedem Typ einer computerisierten Einheit über jeden Typ von Netzwerk und/oder eine über ein Netzwerk adressierbare Verbindung (z.B. unter Verwendung eines Web-Browsers) Daten austauschen können.
Unter Bezugnahme auf 5 wird eine Gruppe von funktionalen Abstraktionsschichten 1100 gezeigt, die durch die Cloud-Computing-Umgebung 1000 bereitgestellt werden. Dabei sollte von Anfang an klar sein, dass die in 5 gezeigten Komponenten, Schichten und Funktionen lediglich zur Veranschaulichung dienen sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie dargestellt, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 1102 enthält Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten zählen: Mainframes 1104; Server auf Grundlage einer RISC- (Reduced Instruction Set Computer) Architektur 1106; Server 1108; Blade-Server 1110; Speichereinheiten 1112; und Netzwerke und vernetzte Komponenten 1114. In einigen Ausführungsformen enthalten Software-Komponenten Software für Netzwerkanwendungsserver 1116 und Datenbank-Software 1118.
Eine Virtualisierungsschicht 1120 stellt eine Abstraktionsschicht bereit, von der aus die folgenden beispielhaften virtuellen Entitäten bereitgestellt werden können: virtuelle Server 1122; virtueller Speicher 1124; virtuelle Netzwerke 1126, einschließlich virtuelle private Netzwerke; virtuelle Anwendungen und Betriebssysteme 1128; und virtuelle Clients 1130.
In einem Beispiel kann eine Verwaltungsschicht 1132 die im Folgenden beschriebenen Funktionen bereitstellen. Eine Ressourcenbereitstellung 1134 sorgt für eine dynamische Beschaffung von Datenverarbeitungsressourcen und anderen Ressourcen, die zum Ausführen von Aufgaben innerhalb der Cloud-Computing-Umgebung eingesetzt werden. Messung und Preisbestimmung 1136 ermöglichen beim Einsatz von Ressourcen innerhalb der Cloud-Computing-Umgebung eine Kostenverfolgung und eine Abrechnung oder Rechnungsstellung für die Inanspruchnahme dieser Ressourcen. In einem Beispiel können diese Ressourcen Lizenzen für Anwendungssoftware aufweisen. Eine Sicherheitsfunktion stellt eine Identitätsprüfung für Cloud-Nutzer und -Aufgaben sowie einen Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 1138 stellt den Zugang zur Cloud-Computing-Umgebung für Nutzer und Systemadministratoren bereit. Eine Service-Level- (Dienstgüte) Verwaltung 1140 sorgt für Zuweisung und Verwaltung von Cloud-Computing-Ressourcen, sodass erforderliche Service-Levels eingehalten werden. Planung und Vertragserfüllung des Service Level Agreement (SLA) (Dienstgütevereinbarung) 1142 stellen eine Vorab-Vereinbarung für und Beschaffung von Cloud-Computing-Ressourcen bereit, für die gemäß eines SLA eine zukünftige Anforderung erwartet wird.
Eine Arbeitslastenschicht 1144 stellt Beispiele für eine Funktionalität bereit, für welche die Cloud-Computing-Umgebung genutzt werden kann. Zu Beispielen von Arbeitslasten und Funktionen, die von dieser Schicht aus bereitgestellt werden können, zählen: Zuordnung und Navigation 1146; Software-Entwicklung und Lifecycle-Management 1148; Bereitstellung von virtuellen Schulungen 1150; Datenanalyseverarbeitung 1152; Transaktionsverarbeitung 1154; und Sprachantwort 1156. Ein Sprachantwort-Programm 110a, 110b stellt eine Möglichkeit für Benutzer mit Sprachbehinderung bereit, mit den Sprachantwort-Systemen durch Verwenden von einer oder mehreren verbundenen Einheiten zu kommunizieren, einschließlich alternative und augmentative Datenübertragungseinheiten.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zweck einer Veranschaulichung erstellt, sie sollen aber keineswegs erschöpfend oder auf die offenbarten Ausführungsformen eingeschränkt sein. Für Fachleute sind viele Modifizierungen und Variationen offenkundig, die nicht von dem Schutzumfang der beschriebenen Ausführungsformen abweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt gefundenen Technologien bestmöglich zu erklären oder es anderen Fachleuten zu ermöglichen, die hierin offenbarten Ausführungsformen zu verstehen.

Claims

Verfahren für Sprachantworten, wobei das Verfahren aufweist: Sammeln von Benutzerdaten von mindestens einer verbundenen Einheit; Schulen eines Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten; Identifizieren eines Wecksignals auf Grundlage des geschulten Sprachantwort-Systems; Bestimmen, dass eine Benutzerinteraktion auf Grundlage eines Identifizierens des Wecksignals beabsichtigt ist; und Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit.
Verfahren nach Anspruch 1, wobei die mindestens eine verbundene Einheit eine augmentative und alternative Datenübertragungseinheit ist.
Verfahren nach Anspruch 1, wobei ein Schulen des Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten ferner aufweist: Vorhersagen eines Themas einer Sprachanforderung durch Verwenden eines rekurrenten neuronalen Netzwerks eines Long Short Term Memorys.
Verfahren nach Anspruch 1, wobei das Wecksignal eine Änderung in einem biometrischen Parameter ist, der auf einer verbundenen Internet-of-Things- (loT) Einheit aufgezeichnet ist.
Verfahren nach Anspruch 1, wobei ein Bestimmen, dass eine Benutzerinteraktion beabsichtigt ist, ferner aufweist: Verwenden eines Random-Forest-Algorithmus, um eine binäre Klassifizierung der gesammelten Benutzerdaten durchzuführen.
Verfahren nach Anspruch 1, wobei ein Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit ferner aufweist: Bereitstellen eines benutzerdefinierten Menüs auf Grundlage der Benutzerdaten für den Benutzer; Analysieren einer Benutzerrückmeldung; und Vorhersagen eines Benutzerthemas.
Verfahren nach Anspruch 1, wobei die Benutzerdaten in einer Datenbank gespeichert werden, und wobei die Datenbank auf Grundlage einer Interaktion mit dem Benutzer aktualisiert wird, um die Benutzerdaten mit einem Benutzerthema zu korrelieren, das durch ein rekurrentes neuronales Netzwerk eines Long Short Term Memorys vorhergesagt wird.
Verfahren nach Anspruch 7, wobei ein Sprachmenü in der Datenbank vordefiniert ist.
Computersystem für Sprachantworten, das aufweist: einen oder mehrere Prozessoren, einen oder mehrere durch einen Computer lesbare Arbeitsspeicher, ein oder mehrere durch einen Computer lesbare konkrete Speichermedien und Programmanweisungen, die auf mindestens einen von dem einen oder den mehreren konkreten Speichermedien zur Ausführung durch mindestens einen von dem einen oder den mehreren Prozessoren über mindestens einen von dem einen oder den mehreren Arbeitsspeichern gespeichert sind, wobei das Computersystem fähig ist, ein Verfahren durchzuführen, das aufweist: Sammeln von Benutzerdaten von mindestens einer verbundenen Einheit; Schulen eines Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten; Identifizieren eines Wecksignals auf Grundlage des geschulten Sprachantwort-Systems; Bestimmen, dass eine Benutzerinteraktion auf Grundlage eines Identifizierens des Wecksignals beabsichtigt ist; und Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit.
Computersystem nach Anspruch 9, wobei die mindestens eine verbundene Einheit eine augmentative und alternative Datenübertragungseinheit ist.
Computersystem nach Anspruch 9, wobei ein Schulen des Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten ferner aufweist: Vorhersagen eines Themas einer Sprachanforderung durch Verwenden eines rekurrenten neuronalen Netzwerks eines Long Short Term Memorys.
Computersystem nach Anspruch 9, wobei das Wecksignal eine Änderung in einem biometrischen Parameter ist, der auf einer verbundenen Internet-of-Things- (loT) Einheit aufgezeichnet ist.
Computersystem nach Anspruch 9, wobei ein Bestimmen, dass eine Benutzerinteraktion beabsichtigt ist, ferner aufweist: Verwenden eines Random-Forest-Algorithmus, um eine binäre Klassifizierung der gesammelten Benutzerdaten durchzuführen.
Computersystem nach Anspruch 9, wobei ein Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit ferner aufweist: Bereitstellen eines benutzerdefinierten Menüs auf Grundlage der Benutzerdaten für den Benutzer; Analysieren einer Benutzerrückmeldung; und Vorhersagen eines Benutzerthemas.
Computersystem nach Anspruch 9, wobei die Benutzerdaten in einer Datenbank gespeichert werden, und wobei die Datenbank auf Grundlage einer Interaktion mit dem Benutzer aktualisiert wird, um die Benutzerdaten mit einem Benutzerthema zu korrelieren, das durch ein rekurrentes neuronales Netzwerk eines Long Short Term Memorys vorhergesagt wird.
Computersystem nach Anspruch 15, wobei ein Sprachmenü in der Datenbank vordefiniert ist.
Computerprogrammprodukt für Sprachantworten, das aufweist: ein oder mehrere nicht flüchtige, durch einen Computer lesbare Speichermedien und Programmanweisungen, die auf mindestens einem von dem einen oder den mehreren konkreten Speichermedien gespeichert sind, wobei Programmanweisungen durch einen Prozessor ausführbar sind, um den Prozessor zu veranlassen, ein Verfahren durchzuführen, das aufweist: Sammeln von Benutzerdaten von mindestens einer verbundenen Einheit; Schulen eines Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten; Identifizieren eines Wecksignals auf Grundlage des geschulten Sprachantwort-Systems; Bestimmen, dass eine Benutzerinteraktion auf Grundlage eines Identifizierens des Wecksignals beabsichtigt ist; und Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit.
Computerprogrammprodukt nach Anspruch 17, wobei die mindestens eine verbundene Einheit eine augmentative und alternative Datenübertragungseinheit ist.
Computerprogrammprodukt nach Anspruch 17, wobei ein Schulen des Sprachantwort-Systems auf Grundlage der gesammelten Benutzerdaten ferner aufweist: Vorhersagen eines Themas einer Sprachanforderung durch Verwenden eines rekurrenten neuronalen Netzwerks eines Long Short Term Memorys.
Computerprogrammprodukt nach Anspruch 17, wobei das Wecksignal eine Änderung in einem biometrischen Parameter ist, der auf einer verbundenen Internet-of-Things-(loT) Einheit aufgezeichnet ist.
Computerprogrammprodukt nach Anspruch 17, wobei ein Bestimmen, dass eine Benutzerinteraktion beabsichtigt ist, ferner aufweist: Verwenden eines Random-Forest-Algorithmus, um eine binäre Klassifizierung der gesammelten Benutzerdaten durchzuführen.
Computerprogrammprodukt nach Anspruch 17, wobei ein Interagieren mit dem Benutzer durch die mindestens eine verbundene Einheit ferner aufweist: Bereitstellen eines benutzerdefinierten Menüs auf Grundlage der Benutzerdaten für den Benutzer; Analysieren einer Benutzerrückmeldung; und Vorhersagen eines Benutzerthemas.
Computerprogrammprodukt nach Anspruch 17, wobei die Benutzerdaten in einer Datenbank gespeichert werden, und wobei die Datenbank auf Grundlage einer Interaktion mit dem Benutzer aktualisiert wird, um die Benutzerdaten mit einem Benutzerthema zu korrelieren, das durch ein rekurrentes neuronales Netzwerk eines Long Short Term Memorys vorhergesagt wird.
Verfahren für Sprachantworten, wobei das Verfahren aufweist: Empfangen einer nicht routinemäßigen Anforderung von einem Benutzer; Verwenden von Gesundheitszuständen des Benutzers, um ein Thema der nicht routinemäßigen Anforderung vorherzusagen; und Bereitstellen einer Sprachantwort.
Verfahren zum Generieren eines Befehls, wobei das Verfahren aufweist: Verarbeiten von Datensequenzen durch Verwenden eines rekurrenten neuronalen Netzwerkmodells eines Long Short Term Memorys; und Vorhersagen eines Themas des Befehls auf Grundlage von mindestens einem beobachteten Verhaltensparameter.