DE102021125184A1

DE102021125184A1 - Persönliche vortragsempfehlungen unter verwendung von zuhörerreaktionen

Info

Publication number: DE102021125184A1
Application number: DE102021125184.2A
Authority: DE
Inventors: Beat Buesser; Bei Chen; Yufang HOU; Akihiro Kishimoto
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-02
Filing date: 2021-09-29
Publication date: 2022-05-05
Also published as: US20220139376A1; CN114446305A; JP2022074024A

Abstract

Aspekte der vorliegenden Erfindung offenbaren ein Verfahren zum Erzeugen von Vortragsempfehlungen für einen Benutzer auf der Grundlage von Rückmeldedaten, die einer Mehrzahl von Zuschauern des Benutzers entsprechen. Das Verfahren umfasst einen oder mehrere Prozessoren zum Erkennen eines Vortrags eines Benutzers in Audiodaten des Benutzers. Ferner umfasst das Verfahren Erkennen von Rückmeldungen eines oder mehrerer Teilnehmer der Zuhörerschaft, die in Zusammenhang mit dem Vortrag des Benutzers stehen. Ferner umfasst das Verfahren ein Erzeugen einer Bewertung des Vortrags des Benutzers, wobei die Bewertung zumindest teilweise auf der Rückmeldung des einen oder mehrerer Teilnehmer der Zuhörerschaft beruht. Ferner umfasst das Verfahren ein Erzeugen einer Vortragsempfehlung für den Vortrag des Benutzers zumindest teilweise auf der Grundlage der Bewertung des Vortrags.

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein das Gebiet der künstlichen Intelligenz und insbesondere ein Bereitstellen von Vortragsrückmeldungen für einen Benutzer.
In letzter Zeit ist der Bedarf an der Nutzung fortschrittlicher Techniken zum Analysieren großer und/oder komplexer Datensätze gestiegen. Insbesondere an der Verarbeitung natürlicher Sprache (natural language processing, NLP), einem Teilgebiet der Computerwissenschaften, die einem Computer ein Verarbeiten und Analysieren großer Datenmengen von natürlicher Sprache ermöglicht. Zum Sortieren und Analysieren subjektiver Informationen bedient sich die Stimmungsanalyse der NLP, der computergestützten Linguistik und der Textanalyse. Eine grundlegende Aufgabe in der Stimmungsanalyse besteht im Einordnen der Polarität eines bestimmten Textes, wobei eine ausgedrückte Meinung des bestimmten Textes positiv, negativ oder neutral ist. Fortschrittliche Techniken zur Stimmungsklassifizierung sind auch in der Lage, einen nachdrücklichen Tonfall eines bestimmten Textes festzustellen.
In der kognitiven Analyse sind kognitive Datenverarbeitung und Analytik miteinander kombiniert. In der kognitiven Datenverarbeitung sind künstliche Intelligenz und Algorithmen für maschinelles Lernen in der Absicht miteinander kombiniert, das Verhalten des menschlichen Gehirns nachzubilden. Analytik stellt den wissenschaftlichen Prozess des Umwandelns von Daten in Erkenntnisse zum Fällen besserer Entscheidungen dar. In der kognitiven Analytik werden intelligente Technologien verwendet, um unstrukturierte Datenquellen analytischen Prozessen zugänglich zu machen, um verbesserte und sachkundige Entscheidungen fällen zu können.
Maschinelles Lernen besteht in der wissenschaftlichen Untersuchung von Algorithmen und statistischen Modellen, die Computersysteme zum Ausführen einer speziellen Aufgabe verwenden, ohne ausdrückliche Anweisungen zu nutzen und vielmehr auf Muster und Rückschlüsse zu bauen. Maschinelles Lernen wird als ein Teilgebiet der künstlichen Intelligenz angesehen. Algorithmen für maschinelles Lernen erstellen ein mathematisches Modell auf der Grundlage von Datenproben, die unter der Bezeichnung „Trainingsdaten“ bekannt sind, um Vorhersagen oder Entscheidungen zu treffen, ohne ausdrücklich zum Ausführen der Aufgabe programmiert zu sein. Algorithmen für maschinelles Lernen werden in einer Vielfalt von Anwendungen verwendet.
KURZDARSTELLUNG
Aspekte der vorliegenden Erfindung legen ein Verfahren, ein Computerprogrammprodukt und ein System zum Erzeugen von Empfehlungen für einen Benutzer auf der Grundlage von Rückmeldedaten offen, die einer Mehrzahl von Zuschauern des Benutzers entsprechen. Das Verfahren umfasst einen oder mehrere Prozessoren, die den Vortrag eines Benutzers in Audiodaten des Benutzers erkennen. Ferner umfasst das Verfahren einen oder mehrere Prozessoren, die eine Rückmeldung eines oder mehrerer Teilnehmer der Zuhörerschaft des Benutzers erkennen, die in Zusammenhang mit dem Vortrag des Benutzers steht. Ferner umfasst das Verfahren einen oder mehrere Prozessoren, die eine Bewertung des Vortrags des Benutzers erzeugen, wobei die Bewertung zumindest teilweise auf der Rückmeldung des einen oder der mehreren Teilnehmer der Zuhörerschaft beruht. Ferner umfasst das Verfahren ein Erzeugen einer Vortragsempfehlung für den Vortrag des Benutzers durch einen oder mehrere Prozessoren zumindest teilweise auf der Grundlage der Bewertung des Vortrags.
Figurenliste

1 ist ein Funktionsblockschaubild einer Datenverarbeitungsumgebung gemäß einer Ausführungsform der vorliegenden Erfindung.
2 ist ein Ablaufplan, der Arbeitsschritte eines Programms gemäß Ausführungsformen der vorliegenden Erfindung zum Erzeugen von Vortragsempfehlungen für einen Benutzer auf der Grundlage von Rückmeldedaten zeigt, die einer Mehrzahl von Zuschauern des Benutzers entsprechen.
3 ist einen Blockschaltplan der Komponenten von 1 gemäß einer Ausführungsform der vorliegenden Erfindung.

DETAILLIERTE BESCHREIBUNG
Ausführungsformen der vorliegenden Erfindung ermöglichen ein Erzeugen von Vortragsempfehlungen für einen Benutzer auf der Grundlage von Daten, die einer Mehrzahl von Zuschauern des Benutzers entsprechen. Ausführungsformen der vorliegenden Erfindung beurteilen eine Qualität eines Vortrags eines Benutzers auf der Grundlage von Multimediadaten des Benutzers. Weitere Ausführungsformen der vorliegenden Erfindung erkennen Eigenschaften und Stimmungen des Publikums unter Verwendung von Bild-, Video- und Audiodaten. Ausführungsformen der vorliegenden Erfindung erzeugen in Echtzeit oder nahezu in Echtzeit eine oder mehrere Vortragsempfehlungen für einen Benutzer auf der Grundlage von Eigenschaften und Zuständen des Publikums.
Einige Ausführungsformen der vorliegenden Erfindung gehen davon aus, dass es Probleme beim Bereitstellen einer Echtzeit-Rückmeldung von einer Mehrzahl Zuschauer eines Benutzers in Bezug auf einen Vortrag des Benutzers gibt. Zum Beispiel hält ein Redner einen Vortrag, der sich auf eine Präsentation bezieht, und der Redner muss seinen Vortrag auf der Grundlage von Eigenschaften und/oder Stimmungen der Zuschauer aktualisieren (z.B. Gesichtsausdrücke, Anfragen, Aktivitäten usw.). Ausführungsformen der vorliegenden Erfindung erzeugen Vortragsempfehlungen auf der Grundlage der Eigenschaften und/oder Stimmungen der Zuschauer, damit der Redner in die Lage versetzt wird, den Vortrag der Präsentation zu verbessern. Als Beispiele für Verbesserungen des Vortrags können infrage kommen, ohne auf diese beschränkt zu sein, eine erfolgreichere Übermittlung einer Botschaft eines Vortrags, eine verstärkte Mitwirkung der Zuschauer auf der Grundlage von Zuschauerreaktionen oder eine erhöhte Selbstsicherheit des Redners.
Ausführungsformen der vorliegenden Erfindung können dazu dienen, Telekonferenz-Systeme zu verbessern, indem ein Merkmal zur dynamischen Vortragsrückmeldung in Echtzeit auf der Grundlage von Zuschauern bereitgestellt wird. Außerdem erhöhen verschiedene Ausführungsformen der vorliegenden Erfindung die Leistungsfähigkeit von Netzwerk-Ressourcen durch Verringern des durch das Netzwerk zu übertragenden Datenvolumens, da durch Vortragsempfehlungen und Erweiterungen von Telekonferenz-Sitzungen Anfragen ausgeräumt werden.
Ausführungsformen der Erfindung können in einer Vielfalt von Formen umgesetzt werden, und beispielhafte Umsetzungsdetails werden im Folgenden unter Bezugnahme auf die Figuren erörtert.
Nunmehr wird die vorliegende Erfindung unter Bezugnahme auf die Figuren ausführlich beschrieben. 1 ist ein Funktionsblockschaubild einer verteilten Datenverarbeitungsumgebung mit der allgemeinen Bezugsnummer 100 gemäß einer Ausführungsform der vorliegenden Erfindung. 1 stellt nur eine Veranschaulichung einer Implementierung dar und legt keinerlei Einschränkungen in Bezug auf die Umgebungen nahe, in denen verschiedene Ausführungsformen realisiert werden können. Ein Fachmann kann an der gezeigten Umgebung viele Änderungen vornehmen, ohne von dem in den Ansprüchen dargelegten Schutzumfang der Erfindung abzuweichen.
Die vorliegende Erfindung kann verschiedene verfügbare Datenquellen wie eine Datenbank 144 umfassen, die persönliche Daten, Inhalte oder Informationen enthalten, deren Bearbeitung vom Benutzer nicht erwünscht ist. Als persönliche Daten kommen persönliche Kenndaten oder sensible persönliche Informationen sowie Benutzerinformationen wie Nachverfolgungs- oder Geodaten infrage. Als Verarbeitung gelten alle automatisierten oder nicht automatisierten Arbeitsschritte eines Satzes von Arbeitsschritten wie Sammeln, Aufzeichnen, Organisieren, Strukturieren, Speichern, Anpassen, Verändern, Abrufen, Besprechen, Verwenden, Offenlegen durch Übertragen, Verteilen oder anderweitiges Verfügbarmachen, Verknüpfen, Einschränken, Löschen oder Zerstören, die mit persönlichen Daten vorgenommen werden. Ein Sprachprogramm 200 ermöglicht das berechtigte und sichere Verarbeiten persönlicher Daten. Das Sprachprogramm 200 stellt eine bewusste Zustimmung mit Kenntnis des Sammelns persönlicher Daten bereit und ermöglicht es dem Benutzer, der Verarbeitung persönlicher Daten zuzustimmen oder zu widersprechen. Zustimmung kann in verschiedenen Formen erfolgen. Eine Einverständniserklärung kann vom Benutzer eine Bestätigung erfordern, bevor persönliche Daten verarbeitet werden. Alternativ kann eine Widerspruchserklärung vom Benutzer eine Bestätigung erfordern, dass das Verarbeiten persönlicher Daten verhindert wird, bevor diese verarbeitet werden. Das Sprachprogramm 200 stellt Informationen über persönliche Daten und die Art (z.B. Typ, Umfang, Zweck, Dauer usw.) der Verarbeitung bereit. Das Sprachprogramm 200 stellt dem Benutzer Kopien gespeicherter persönlicher Daten bereit. Das Sprachprogramm 200 ermöglicht ein Korrigieren oder Ergänzen unrichtiger oder unvollständiger persönlicher Daten. Das Sprachprogramm 200 ermöglicht ein sofortiges Löschen persönlicher Daten.
Eine verteilte Datenverarbeitungsumgebung 100 enthält einen Server 140 und eine Client-Einheit 120, die beide über ein Netzwerk 110 miteinander verbunden sind. Bei dem Netzwerk 110 kann es sich zum Beispiel um ein Telekommunikationsnetzwerk, ein lokales Netzwerk (local area network, LAN), ein örtliches Netzwerk (municipal area network, MAN), ein Weitverkehrsnetzwerk (wide area network, WAN) wie das Internet oder eine Verknüpfung derselben handeln, und es kann leitungsgebundene, drahtlose oder Lichtwellenleiter-Verbindungen enthalten. Das Netzwerk 110 kann ein oder mehrere leitungsgebundene und/oder drahtlose Netzwerke enthalten, die in der Lage sind, Daten-, Sprach- und/oder Videosignale zu empfangen und zu übertragen, darunter Multimediasignale, die Sprach-, Daten- und Video-Informationen enthalten. Allgemein kann es sich bei dem Netzwerk 110 um eine beliebige Verknüpfung von Verbindungen und Protokollen handeln, die Datenübertragungen zwischen dem Server 140 und der Client-Einheit 120 und anderen (nicht gezeigten) Datenverarbeitungseinheiten innerhalb der verteilten Datenverarbeitungsumgebung 100 unterstützen.
Bei der Client-Einheit 120 kann es sich um einen oder mehrere Laptop-Computer, Tablet-Computer, Smartphones, Smartwatches, Smartspeaker, virtuelle Assistenten oder eine beliebige programmierbare elektronische Einheit handeln, die in der Lage ist, Daten mit verschiedenen Komponenten und Einheiten innerhalb der verteilten Datenverarbeitungsumgebung 100 über das Netzwerk 110 auszutauschen. Allgemein stellt die Client-Einheit 120 eine oder mehrere programmierbare elektronische Einheiten oder Verknüpfungen programmierbarer elektronischer Einheiten dar, die in der Lage sind, durch eine Maschine lesbare Programmanweisungen auszuführen und Daten mit anderen (nicht gezeigten) Datenverarbeitungseinheiten innerhalb der verteilten Datenverarbeitungsumgebung 110 über ein Netzwerk wie das Netzwerk 110 auszutauschen. Die Client-Einheit 120 kann Komponenten enthalten, die gemäß Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf 3 genauer gezeigt und beschrieben werden.
Die Client-Einheit 120 enthält eine Benutzeroberfläche 122, eine Anwendung 124 und einen Sensor 126. Gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung handelt es sich bei der Benutzeroberfläche um ein Programm, das eine Schnittstelle zwischen einem Benutzer einer Einheit und einer Mehrzahl auf der Client-Einheit befindlicher Anwendungen bereitstellt. Eine Benutzeroberfläche wie die Benutzeroberfläche 122 betrifft die Informationen (beispielsweise Grafik, Text und Ton), die ein Programm einem Benutzer darbietet, und die Steuersequenzen, die der Benutzer zum Steuern des Programms verwendet. Es gibt eine Vielfalt von Typen der Benutzeroberflächen. Gemäß einer Ausführungsform handelt es sich bei der Benutzeroberfläche 122 um eine grafische Benutzeroberfläche. Eine grafische Benutzeroberfläche (graphical user interface, GUI) ist eine Art von Benutzeroberfläche, die es Benutzern ermöglicht, mit elektronischen Einheiten wie einer Computer-Tastatur und einer Maus durch grafische Symbole und visuelle Anzeigen wie eine Zusatzbezeichnung im Gegensatz zu Textanzeigen, schriftliche Befehlsmarken oder Textnavigation zu interagieren. Bei der Datenverarbeitung wurden GUIs als Reaktion auf die wahrgenommene steile Lernkurve von Befehlszeilen-Darstellungen eingeführt, bei denen Befehle auf der Tastatur eingetippt werden müssen. Auf GUIs werden die Arbeitsschritte oft durch direkten Umgang mit den grafischen Elementen ausgeführt. Gemäß einer anderen Ausführungsform stellt die Benutzeroberfläche 122 ein Skript oder eine Anwendungsprogrammierschnittstelle (application programming interface, API) dar.
Die Anwendung 124 ist ein Computerprogramm, das zur Ausführung auf der Client-Einheit 120 entwickelt wurde. Eine Anwendung dient oft dazu, einem Benutzer ähnliche Dienste bereitzustellen, auf die über Personal Computer zugegriffen wird (z.B. Web-Browser, Musik abspielen, Telefonkonferenzen, eMail-Programme oder andere Medien usw.). Gemäß einer Ausführungsform ist die Anwendung 124 eine mobile Anwendungs-Software. Zum Beispiel handelt es sich bei der mobilen Anwendungs-Software oder einer „App“ um ein Computerprogramm, das zur Ausführung auf Smartphones, Tablet-Computern und anderen mobilen Einheiten entwickelt wurde. Gemäß einer anderen Ausführungsform ist die Anwendung 124 eine Web-Benutzeroberfläche (web user interface, WUI) und kann Text, Dokumente, Web-Browser-Fenster, Benutzeroptionen, Anwendungsoberflächen und Bedienungsanweisungen anzeigen und die Informationen (wie Grafik, Text und Ton, die ein Programm einem Benutzer anzeigt, und Steuersequenzen enthalten, die der Benutzer zum Steuern des Programms verwendet. Gemäß einer anderen Ausführungsform handelt es sich bei der Anwendung 124 um eine clientseitige Anwendung des Sprachprogramms 200.
Bei dem Sensor 126 handelt es sich um eine Einheit, ein Modul, eine Maschine oder ein Teilsystem, dessen Zweck darin besteht, Ereignisse oder Änderungen in einer Arbeitsumgebung zu detektieren und die Information an andere Elektronik, oft ein Computer-Prozessor, zu senden. Gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung erklären sich Zuschauer (z.B. Mitglieder eines Publikums) mit dem Sicherheitsprogramm 200 einverstanden und stimmen diesem zu, persönliche Daten (z.B. Sprache von Zuschauern, Bilder von Zuschauern usw.) der Zuschauer zu sammeln und/oder zu verarbeiten, bevor die persönlichen Daten durch den Sensor 126 erfasst werden. Allgemein stellt der Sensor 126 eine Vielfalt von Sensoren der Client-Einheit 120 dar, die verschiedene Arten von Daten (z.B. Ton, Bild, Bewegung, Video usw.) sammelt und bereitstellt. Gemäß einer Ausführungsform überträgt die Client-Einheit 120 Daten des Sensors 126 über das Netzwerk 110 zum Server 140. Bei dem Sensor 126 kann es sich zum Beispiel um eine Kamera handeln, die die Client-Einheit 120 zum Erfassen und Sammeln von Bildern einer Mehrzahl von Zuschauern eines Benutzers nutzt, die zu einem fernen Server (z.B. zum Server 140) übertragen werden. Gemäß einem anderen Beispiel kann es sich bei dem Sensor 126 um ein Mikrofon handeln, das die Client-Einheit 120 zum Erfassen von Audiodaten eines Benutzers und/oder einer Mehrzahl von Zuschauern des Benutzers nutzt, die zu einem fernen Server (z.B. zum Server 140) übertragen werden.
Gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung kann es sich bei dem Server 140 um einen Arbeitsplatz-Computer, einen Computer-Server oder beliebige andere in der Technik bekannte Computersysteme handeln. Allgemein ist der Server 140 repräsentativ für jede elektronische Einheit oder Verknüpfung elektronischer Einheiten, die in der Lage sind, durch einen Computer lesbare Programmanweisungen auszuführen. Der Server 140 kann Komponenten enthalten, die gemäß Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf 3 gezeigt und ausführlich beschrieben werden.
Bei dem Server 140 kann es sich um eine eigenständige Datenverarbeitungseinheit, einen Verwaltungs-Server, einen Web-Server, eine mobile Datenverarbeitungseinheit oder eine beliebige andere elektronische Einheit oder ein Datenverarbeitungssystem handeln, das in der Lage ist, Daten zu empfangen, zu senden und zu verarbeiten. Gemäß einer Ausführungsform kann der Server 140 ein Server-Datenverarbeitungssystem repräsentieren, das mehrere Computer als Server-System nutzt, beispielsweise in einer Cloud-Computing-Umgebung. Gemäß einer anderen Ausführungsform kann es sich bei dem Server 140 um einen Laptop-Computer, einen Tablet-Computer, einen Netbook-Computer, einen Personal Computer (PC), einen Arbeitsplatzcomputer, einen persönlichen digitalen Assistenten (personal digital assistant, PDA), ein Smartphone oder eine beliebige programmierbare elektronische Einheit handeln, die in der Lage ist, über das Netzwerk 110 Daten mit der Client-Einheit 120 und anderen (nicht gezeigten) Datenverarbeitungseinheiten innerhalb der verteilten Datenverarbeitungsumgebung 100 auszutauschen. Gemäß einer anderen Ausführungsform repräsentiert der Server 140 ein Datenverarbeitungssystem unter Verwendung in Clustern zusammengefasster Computer und Komponenten (z.B. Datenbank-Server-Computer, Anwendungs-Server-Computer usw.), die als ein einziger Pool lückenloser Ressourcen agieren, wenn innerhalb der verteilten Datenverarbeitungsumgebung 100 auf sie zugegriffen wird.
Der Server 140 umfasst eine Speichereinheit 142, eine Datenbank 144 und ein Sprachprogramm 200. Die Speichereinheit 142 kann durch einen beliebigen Typ von Speichereinheit, zum Beispiel ein permanenter Speicher 305, der in der Lage ist, Daten zu speichern, auf die die Client-Einheit 120 und der Server 140 wie beispielsweise ein Datenbank-Server zugreifen und die diese nutzen können, ein Festplattenlaufwerk oder einen Flash-Speicher realisiert werden. Gemäß einer Ausführungsform kann die Speichereinheit 142 mehrere Speichereinheiten innerhalb des Servers 140 repräsentieren. Gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung werden in der Speichereinheit 142 zahlreichen Typen von Daten gespeichert, die die Datenbank 144 enthalten kann. Die Datenbank 144 kann eine oder mehrere organisierte Datensammlungen repräsentieren, die vom Server 140 gespeichert werden und auf die dieser zugreift. Zum Beispiel enthält die Datenbank 144 Daten der Benutzer aus sozialen Medien, Publikationen, Audiodaten des Benutzers und der Zuschauer, Bilder von Zuschauern usw. Gemäß einer Ausführungsform kann die Datenverarbeitungsumgebung 100 weitere (nicht gezeigte) Server umfassen, die weitere Informationen verwalten, auf die über das Netzwerk 110 zugegriffen werden kann.
Das Sprachprogramm 200 kann Vortragsempfehlungen für einen Benutzer auf der Grundlage von Daten erzeugen, die einer Mehrzahl von Zuschauern des Benutzers entsprechen. Gemäß einer Ausführungsform wandelt das Sprachprogramm 200 Audiodaten eines Benutzers in Textdaten um. Zum Beispiel kann das Sprachprogramm 200 Techniken zur Verarbeitung natürlicher Sprache (natural language processing, NLP) (z.B. optische Zeichenerkennung (optical character recognition, OCR), Spracherkennung, Sprache-zu-Text-Umwandlung, Zerlegung in Tokens usw.) nutzen, um aus Audiodaten eine Textdarstellung der Sprache eines Benutzers zu erzeugen. Gemäß einer anderen Ausführungsform ermittelt das Sprachprogramm 200 Eigenschaften einer Mehrzahl von Zuschauern des Benutzers. Zum Beispiel kann das Sprachprogramm 200 einen Algorithmus für maschinelles Lernen zum Erkennen von Eigenschaften (z.B. Erwartungen des Publikums, Sachkenntnis, Einstellung zum Thema, Größe des Publikums, demografische Daten, Umgebungsbedingungen usw.) eines Publikums nutzen, das einzeln zustimmt (z.B. sein Einverständnis erklärt), damit das Sprachprogramm 200 Daten über jeden Zuschauer eines Benutzers nutzen darf. Gemäß einer anderen Ausführungsform erkennt das Sprachprogramm 200 ein oder mehrere Merkmale eines Vortrags eines Benutzers. Ein oder mehrere Muster können, ohne auf diese beschränkt zu sein, Stimmeigenschaften wie Intonationsmuster, Sprechgeschwindigkeit, Tonfall usw. umfassen. Gemäß einer anderen Ausführungsform leitet das Sprachprogramm 200 aus Multimediadaten eine Rückmeldung ab, die eine Mehrzahl von Zuschauern des Benutzers umfasst. Gemäß noch einer anderen Ausführungsform nutzt das Sprachprogramm 200 Rückmeldungen einer Mehrzahl von Zuschauern, Textdaten eines Vortrags eines Benutzers und ein oder mehrere Merkmale des Vortrags des Benutzers, um den Vortrag zu bewerten und Empfehlungen für den Benutzer zu erzeugen.
2 ist ein Ablaufplan, der Arbeitsschritte des Sprachprogramms 200 zeigt, eines Programms, das gemäß Ausführungen der vorliegenden Erfindung Vortragsempfehlungen für einen Benutzer auf der Grundlage von Rückmeldedaten erzeugt, die einer Mehrzahl von Zuschauern des Benutzers entsprechen. Gemäß einer Ausführungsform wird das Sprachprogramm 200 als Reaktion darauf gestartet, dass ein Benutzer die Client-Einheit 120 über das Netzwerk 110 mit dem Sprachprogramm 200 verbindet. Zum Beispiel wird das Sprachprogramm 200 als Reaktion darauf gestartet, dass ein Benutzer sich über ein WLAN (z.B. das Netzwerk 110) bei einem Laptop (z.B. der Client-Einheit 120) mit dem Sprachprogramm 200 anmeldet (z.B. sein Einverständnis erklärt). Gemäß einer anderen Ausführungsform handelt es sich bei dem Sprachprogramm 200 um eine Hintergrundanwendung, die die Client-Einheit 120 ständig überwacht. Zum Beispiel handelt es sich bei dem Sprachprogramm 200 um eine clientseitige Anwendung (z.B. die Anwendung 124), die nach dem Beginn einer Telekonferenz-Anwendung (z.B. der Anwendung 124) eines Laptops (z.B. der Client-Einheit 120) eines Benutzers gestartet wird.
In Schritt 202 erkennt das Sprachprogramm 200 Audiodaten, die einem Benutzer entsprechen. Gemäß einer Ausführungsform nutzt das Sprachprogramm 200 den Sensor 126 der Client-Einheit 120 zum Erfassen von Audiodaten eines Benutzers und zum Erkennen des Vortrags des Benutzers. Zum Beispiel nutzt das Sprachprogramm 200 eine Sprache-zu-Text-Technik (z.B. NLP) zum Erkennen des Vortrags eines Benutzers in Form von Audiodaten, die durch ein Mikrofon (z.B. den Sensor 126) einer Datenverarbeitungseinheit (z.B. der Client-Einheit 120) des Benutzers erfasst werden. Gemäß diesem Beispiel erzeugt das Sprachprogramm 200 eine Textdarstellung des in den Audiodaten detektierten Vortrags.
Gemäß einem anderen Beispiel erkennt das Sprachprogramm 200 unter Verwendung von Spracherkennungstechniken (z.B. Stimmanalyse, Sprechererkennung usw.) einen Benutzer, der dem detektierten Vortrag entspricht. Bei diesem Beispiel überprüft das Sprachprogramm 200 die Identität des Benutzers unter Verwendung eines trainierten Algorithmus (z.B. eines neuronalen Netzwerks, dynamischer Zeitnormierung, des Hidden-Markov-Modells usw.), um den in den Audiodaten detektierten Vortrag mit Proben zu vergleichen, mit denen der Algorithmus trainiert wurde. Zusätzlich nutzt das Sprachprogramm 200 eine Stimmanalyse zum Erkennen von Eigenschaften (z.B. Tonhöhenmuster, Sprechgeschwindigkeit, Klangfarbe usw.) des detektierten Vortrags.
In Schritt 204 erkennt das Sprachprogramm 200 ein oder mehrere Ereignisse einer Zuhörerschaft des Benutzers. Gemäß einer Ausführungsform erkennt das Sprachprogramm 200 ein oder mehrere Ereignisse einer Mehrzahl von Zuschauern als Rückmeldung auf Audiodaten eines Benutzers. Zum Beispiel nutzt das Sprachprogramm 200 Audiodaten und Videodaten, die ein Publikum umfassen, um ein oder mehrere Ereignisse (z.B. Rückmeldung, Aktivität, Stimmung, biologischer Zustand, Reaktion usw.) zu ermitteln, die jedem Zuschauer eines Benutzers in der Zuhörerschaft entsprechen. Bei diesem Beispiel nutzt das Sprachprogramm 200 einen Algorithmus für maschinelles Lernen (z.B. ein neuronales Netzwerk, Klassifikatoren usw.) zum Ermitteln von Zuschaueremotionen, komplexen kognitiven Zuständen oder Aktivitäten usw. unter Verwendung von Bildern/Videos von Gesichtsausdrücken und Lautäußerungen jedes Zuschauers.
Gemäß einem anderen Beispiel sagt das Sprachprogramm 200 ein oder mehrere Ereignisse einer Zuhörerschaft in Bezug auf den Vortrag eines Benutzers voraus. Bei diesem Beispiel nutzt das Sprachprogramm 200 faktorisierte Variations-Encoder (FVAE) zum Messen komplexer Zuhörerreaktionen (z.B. Ereignisse, Einschlafen, Durcheinander, Begeisterung, Erheiterung usw.) durch Bewerten der Gesichtsausdrücke jedes Zuschauers im Publikum und durch Anwenden von Mustererkennungstechniken zum Ermitteln einer Stimmung der Zuhörerschaft (d.h. durch Analysieren der Oberfläche von Gesichtern der Teilnehmer der Zuhörerschaft und Zuordnen der Gesichter zu entsprechenden Stimmungen und dem Abschnitt des gerade an die Teilnehmer der Zuhörerschaft übertragenen Vortrags).
Gemäß einer anderen Ausführungsform ermittelt das Sprachprogramm 200 Eigenschaften einer Zuhörerschaft, die einen oder mehrere Zuschauer eines Benutzers enthält. Gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung lassen Zuschauer eines Vortrags eines Benutzers zu (z.B. erklären ihr Einverständnis, stimmen zu usw.), dass das Sprachprogramm 200 Namen, Audiodaten und Bilder von Zuschauern zum Durchsuchen von sozialen Medien, Publikationen, Adressen usw. sammelt, um Eigenschaften des Publikums wie demografische Eigenschaften, Erwartungen und Interessen der Zuschauer zu speichern, zu analysieren und zu ermitteln, ohne auf diese beschränkt zu sein. Zum Beispiel nutzt das Sprachprogramm 200 Multimediadaten einer Datenverarbeitungseinheit (z.B. der Client-Einheit 120) zum Durchführen einer Zuhöreranalyse zum Ermitteln von Zuhörereigenschaften (z.B. Erwartungen, Sachkenntnis, themenbezogenes Verhalten, Größe der Zuhörerschaft, Demografie, Umgebungsbedingungen, Freiwilligkeit, egozentrisches Verhalten). Bei diesem Beispiel kann das Sprachprogramm 200 verschiedene Klassifizierungsalgorithmen nutzen (z.B. neuronale Netzwerke, Support-Vektor-Maschinen, Naiver Bayes-Klassifikator usw.), die beim maschinellen Lernen zum Erkennen von Eigenschaften einer Zuhörerschaft auf der Grundlage von Bildern und Textdaten verwendet werden, die jedem Zuschauer entsprechen. Gemäß einer anderen Ausführungsform wandelt das Sprachprogramm 200 Rückmeldungen (z.B. Eigenschaften der Zuhörerschaft und Ereignisse) einer Mehrzahl von Zuschauern in Textdaten um und ordnet die Rückmeldungen jeweils einem Abschnitt eines Vortrags eines Benutzers zu. Gemäß einer anderen Ausführungsform wandelt das Sprachprogramm 200 Rückmeldungen (z.B. Eigenschaften der Zuhörerschaft und Ereignisse) einer Mehrzahl von Zuschauern in Textdaten um
In Schritt 206 setzt das Sprachprogramm 200 das eine oder mehrere Ereignisse der Zuhörerschaft in Beziehung zu den Audiodaten des Benutzers. Gemäß einer anderen Ausführungsform setzt das Sprachprogramm 200 ein oder mehrere Rückmeldeereignisse einer Mehrzahl von Zuschauern in Beziehung zu einem Abschnitt von Audiodaten eines Benutzers. Zum Beispiel erkennt das Sprachprogramm 200 eine Reaktion (z.B. ein Ereignis) einer Zuhörerschaft eines Benutzers und ermittelt, ob ein Thema eines Abschnitts eines Vortrags des Benutzers der Reaktion des Publikums entspricht. Bei diesem Beispiel nutzt das Sprachprogramm 200 Eigenschaften der Zuhörerschaft (z.B. Erwartungen, Verhalten in Bezug auf das Thema, demografische Gegebenheiten usw.), um eine Beziehung zwischen der Reaktion der Zuhörerschaft und dem Thema des Vortrags des Benutzers zu erkennen. Bei einem Szenario nutzt das Sprachprogramm 200 Bilder von Gesichtsausdrücken einer Zuhörerschaft eines Benutzers zum Erkennen eines Zustands/Ereignisses (z.B. irritiert, betroffen usw.) der Zuhörerschaft, während der Benutzer einen Vortrag hält. Wenn das Sprachprogramm 200 erkennt, dass eine Zustandsänderung eingetreten ist (z.B. ein Ereignis, eine Reaktion, eine Rückmeldung usw.), stellt das Sprachprogramm 200 einen Kontext zu der Zustandsänderung der Zuhörerschaft her. Der Kontext kann zum Beispiel ein Thema, sprachliche Eigenschaften, Verhalten der Zuhörerschaft in Bezug auf das Thema usw. enthalten. Bei einem anderen Szenario erzeugt das Sprachprogramm 200 eine Datenbasis korrelierender Eigenschaften der Zuhörerschaft, Themen, sprachlicher Eigenschaften und Ereignisse.
In Schritt 208 bewertet das Sprachprogramm 200 eine Vortragsqualität des Benutzers. Gemäß einer Ausführungsform nutzt das Sprachprogramm 200 Audiodaten eines Benutzers und Rückmeldungen einer Mehrzahl von Zuschauern zum Bewerten eines Vortrags eines Benutzers. Zum Beispiel gibt das Sprachprogramm 200 eine Textdarstellung eines oder mehrerer Abschnitte eines Vortrags eines Benutzers in ein Vortragsqualitätsmodell (z.B. einen Algorithmus für maschinelles Lernen, ein künstliches neuronales Netzwerk) ein, das eine Bewertungszahl für eine oder mehrere Dimensionen von Prüfqualitäten (z.B. Klarheit, Überzeugungskraft, Dienlichkeit usw.) des Vortrags des Benutzers erzeugt. Bei diesem Beispiel erzeugt das Sprachprogramm 200 eine Bewertungszahl für den Vortrag des Benutzers, die einer Beteiligung einer Zuhörerschaft auf der Grundlage von Rückmeldungen der Zuhörerschaft entspricht. Das Sprachprogramm 200 nutzt eine Textdarstellung eines biologischen Zustands (z.B. aufmerksam, begeistert, irritiert, Aktivitäten von Personen der Zuhörerschaft usw.) der Zuhörerschaft auf der Grundlage von audiovisuellen Videodaten einer Datenverarbeitungseinheit (z.B. der Client-Einheit 120), die Zustandsinformationen jedes Teilnehmers der Zuhörerschaft enthalten, um eine Bewertungszahl für die Beteiligung der Zuhörerschaft während des Vortrags des Benutzers zu erzeugen.
Gemäß einem Szenario kann das Sprachprogramm 200 sprachliche Eigenschaften (z.B. Tonfall, Intonation, Sprechgeschwindigkeit usw.) einer Stimmanalyse des Benutzers und/oder die Satzstruktur des Vortrags nutzen, um eine Klarheits-Bewertungszahl für den Benutzer zu ermitteln. Außerdem kann das Sprachprogramm 200 Eigenschaften der Zuhörerschaft (z.B. Bildungsgrad, Sachkenntnis usw.) als Faktor zur Ermittlung einer Klarheits- oder Überzeugungs-Bewertungszahl für den Vortrag verwenden. Gemäß einem anderen Szenario ermittelt das Sprachprogramm 200, dass eine Mehrheit einer Zuhörerschaft eines Benutzers während eines ersten Abschnitts des Vortrags des Benutzers mit einer Aktivität (z.B. einem Zustand, einem Ereignis usw.) wie „sich miteinander unterhalten“ beschäftigt ist. Außerdem ermittelt das Sprachprogramm 200, dass die Mehrheit der Zuhörerschaft des Benutzers während eines zweiten Abschnitts des Vortrags des Benutzers mit einer Aktivität (z.B. einem Zustand, einem Ereignis usw.) wie „dem Benutzer applaudieren“ beschäftigt sind. Demgemäß erzeugt das Sprachprogramm 200 für den zweiten Abschnitt eine höhere Bewertungszahl als für den ersten Abschnitt, da der zweite Abschnitt anzeigt, dass die Mehrheit der Zuhörerschaft von dem Vortrag des Benutzers stärker begeistert ist.
In Schritt 210 erzeugt das Sprachprogramm 200 eine Vortragsempfehlung für den Benutzer. Gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung kann das Sprachprogramm 200 einen Algorithmus für maschinelles Lernen dafür trainieren, Rückmeldungen der Zuhörerschaft, Textdaten von Tonaufnahmen einer Zuhörerschaft, Textdaten von Tonaufnahmen eines Vortragenden und Eigenschaften aus der Stimmanalyse (Intonation, Tonfall, Sprechgeschwindigkeit usw.) des Vortragenden zu verwenden, um verbesserungswürdige Bereiche im Vortrag des Vortragenden zu erkennen. Außerdem nutzt das Sprachprogramm 200 die Ausgabedaten des Algorithmus für maschinelles Lernen zum Bereitstellen von Vortragsempfehlungen für den Vortragenden in Echtzeit, um den Vortragenden unverzüglich bei seinem Vortrag zu unterstützen.
Gemäß einer Ausführungsform stellt das Sprachprogramm 200 eine Vortragsempfehlung für einen Benutzer der Client-Einheit 120 bereit. Zum Beispiel nutzt das Sprachprogramm 120 Eigenschaften einer Zuhörerschaft zum Erzeugen von Vortragsempfehlungen für einen Benutzer. Bei diesem Beispiel kann das Sprachprogramm 200 eine Meinung zu einem Thema, ein Bildungsniveau und demografisch bedingte kulturelle Normen einer Zuhörerschaft (z.B. Eigenschaften einer Zuhörerschaft) dazu nutzen, zu ermitteln, ob die Verwendung von Humor durch einen Benutzer in Bezug auf ein Thema zum Erhöhen der Aufmerksamkeit der Zuhörerschaft für einen Vortrag unpassend ist. Demgemäß kann das Sprachprogramm 200 eine Textnachricht erzeugen, mit der der Benutzer über ein vorhergesagtes Ergebnis der Verwendung von Humor in Bezug auf das Thema in Kenntnis gesetzt wird, bevor die Äußerung vor der Zuhörerschaft erfolgt.
Bei einem anderen Beispiel nutzt das Sprachprogramm 200 Dimensions-Bewertungszahlen eines Benutzers, um Vortragsempfehlungen für einen Benutzer zu erzeugen. Bei diesem Beispiel nutzt das Sprachprogramm 200 Bewertungszahlen einer oder mehrerer Dimensionen (z.B. Klarheit, Überzeugungskraft, Dienlichkeit) des Vortrags des Benutzers zum Erkennen von Leistungsbereichen, die zu verbessernden Dimensions-Bewertungszahlen des Vortrags entsprechen (z.B. unterhalb eines definierten Schwellenwertes liegen). Zusätzlich kann das Sprachprogramm 200 eine Zielstellung des Benutzers (z.B. erfolgreich zu lehren, Geschäftsleute zu überzeugen usw.) in Beziehung zu einer Dimensions-Bewertungszahl setzen, um eine Textnachricht zu erzeugen, mit der der Benutzer über Empfehlungen zum Verbessern (d.h. zum Verbessern der Dimensions-Bewertungszahl) des Vortrags des Benutzers in Bezug auf die Zielstellung in Kenntnis gesetzt wird.
Gemäß einem Szenario erkennt das Sprachprogramm 200 die Klarheitsdimension als Verbesserungsbereich auf der Grundlage eines definierten Schwellenwertes, und das Sprachprogramm 200 erkennt, dass Schüler der Klasse irritierte Gesichtsausdrücke zeigen (z.B. Stirnrunzeln, leicht geöffneter Mund, weit geöffnete Augen usw.). Außerdem stellt das Sprachprogramm 200 fest, dass die Sprechgeschwindigkeit (z.B. Wörter pro Minute) eines Benutzers eine Geschwindigkeit überschreitet, die auf der Grundlage der Klassenstufe für die Klasse (z.B. Kenntnisse über die Zuhörer, Eigenschaften usw.) vorgegeben ist. Demgemäß erzeugt das Sprachprogramm 200 eine Nachricht an den Benutzer, die Sprechgeschwindigkeit zu vermindern. Wenn das Sprachprogramm 200 erkennt, dass eine Zielstellung des Benutzers in erfolgreichem Lehren besteht, und die irritierten Gesichtsausdrücke der Schüler in Beziehung zu einem Thema setzt, kann das Sprachprogramm 200 darüber hinaus dem Benutzer empfehlen, weitere Beispiele zum Erläutern eines Konzepts bereitzustellen, das dem mit den irritierten Gesichtsausdrücken (z.B. einem Ereignis) in Beziehung gesetzten Thema entspricht.
In Schritt 212 überträgt das Sprachprogramm 200 die Vortragsempfehlung an den Benutzer. Gemäß einer Ausführungsform überträgt das Sprachprogramm 200 eine Vortragsempfehlung an die Client-Einheit 120. Zum Beispiel überträgt das Sprachprogramm 200 Textdaten an eine Datenverarbeitungseinheit (z.B. die Client-Einheit 120) eines Benutzers, die Vortragsempfehlungen enthält, die einer oder mehreren zu verbessernden Dimensionen eines Vortrags des Benutzers entsprechen. Gemäß einem alternativen Beispiel entsprechen die übertragenen Empfehlungen einer oder mehreren Zielstellungen des Benutzers. Gemäß einer anderen Ausführungsform überträgt das Sprachprogramm 200 eine Vortragsbewertung an die Client-Einheit 120. Zum Beispiel überträgt das Sprachprogramm 200 Textdaten an eine Datenverarbeitungseinheit eines Benutzers, in der Bewertungszahlen enthalten sind, die einer oder mehreren Dimensionen zum Verbessern eines Vortrags des Benutzers entsprechen. Gemäß einer anderen Ausführungsform überträgt das Sprachprogramm 200 eine Vortragsempfehlung und eine Vortragsbewertung an die Client-Einheit 120. Zum Beispiel überwacht das Sprachprogramm 200 ständig einen Vortrag eines Benutzers und Rückmeldungen einer Zuhörerschaft, um für den Benutzer Bewertungszahlen und Vortragsempfehlungen eines aktuellen Abschnitts eines Vortrags des Benutzers bereitzustellen.
3 zeigt einen Blockschaltplan von Komponenten der Client-Einheit 120 und des Servers 140 gemäß einer anschaulichen Ausführungsform der vorliegenden Erfindung. Es sollte einsichtig sein, dass 3 nur eine Veranschaulichung einer Implementierung bereitstellt und keine Einschränkungen in Bezug auf die Umgebungen nahelegt, in denen verschiedene Ausführungsformen realisiert werden können. An der gezeigten Umgebung können viele Änderungen vorgenommen werden.
3 enthält einen oder mehrere Prozessoren 301, einen Cache 303, einen Speicher 302, einen permanenten Speicher 305, eine Datenübertragungseinheit 307, eine oder mehrere Eingabe/Ausgabe- (E/A-) Schnittstellen 306 und ein Datenübertragungsnetz 304. Das Datenübertragungsnetz 304 stellt Datenübertragungen zwischen dem Cache 303, dem Speicher 302, dem permanenten Speicher 305, der Datenübertragungseinheit 307 und der einen oder den mehreren Eingabe/Ausgabe- (E/A-) Schnittstellen 306 bereit. Das Datenübertragungsnetz 304 kann mittels einer beliebigen Architektur realisiert werden, die zum Weiterleiten von Daten und/oder Steuerinformationen zwischen Prozessoren (beispielsweise Mikroprozessoren, Datenübertragungs- und Netzwerk-Prozessoren usw.), dem Systemspeicher, Peripherieeinheiten und beliebigen anderen Hardware-Komponenten innerhalb eines Systems entwickelt wurden. Zum Beispiel kann das Datenübertragungsnetz 304 mit einem oder mehreren Bussen oder einem Kreuzschienenverteiler realisiert werden.
Bei dem Speicher 302 und dem permanenten Speicher 305 handelt es sich um durch einen Computer lesbare Speichermedien. Gemäß dieser Ausführungsform enthält der Speicher 302 einen Direktzugriffsspeicher (RAM). Allgemein kann der Speicher 302 beliebige geeignete flüchtige oder nichtflüchtige durch einen Computer lesbare Speichermedien enthalten. Bei dem Cache 303 handelt es sich um einen schnellen Speicher, der die Leistung des oder der Prozessoren 301 durch Aufbewahren aus dem Speicher 302 kürzlich abgerufener Daten und diesen nahe gelegener Daten verbessert.
Zum Umsetzen von Ausführungsformen der vorliegenden Erfindung verwendete Programmanweisungen und Daten (z.B. Software und Daten 310) können im permanenten Speicher 305 und im Speicher 302 gespeichert werden, um über den Cache 303 durch einen oder mehrere der entsprechenden Prozessoren 301 ausgeführt zu werden. Gemäß einer Ausführungsform enthält der permanente Speicher 305 ein Magnetplattenlaufwerk. Alternativ oder zusätzlich zu dem Magnetplattenlaufwerk kann der permanente Speicher 305 eine Halbleiterspeicherplatte, eine Halbleiter-Speichereinheit, einen Nur-Lese-Speicher (read-only memory, ROM), einen löschbaren, programmierbaren Nur-Lese-Speicher (erasable programmable read-only memory, EPROM), einen Flash-Speicher oder ein beliebiges anderes durch einen Computer lesbares Speichermedium enthalten, das in der Lage ist, Programmanweisungen oder digitale Informationen zu speichern.
Das durch den permanenten Speicher 305 verwendete Medium kann auch entnehmbar sein. Zum Beispiel kann für den permanenten Speicher 305 ein entnehmbares Festplattenlaufwerk verwendet werden. Andere Beispiele umfassen optische und Magnetplatten, USB-Sticks und Smartcards, die in ein Laufwerk zur Übertragung auf ein anderes durch einen Computer lesbares Speichermedium gesteckt werden, das auch Bestandteil des permanenten Speichers 305 ist. Software und Daten 310 können in dem permanenten Speicher 305 gespeichert werden, damit ein oder mehrere Prozessoren über den Cache 303 darauf zugreifen und/oder diese ausführen. In Bezug auf die Client-Einheit 120 enthalten die Software und die Daten 310 Daten der Benutzeroberfläche 122, der Anwendung 124 und des Sensors 126. In Bezug auf den Server 140 enthalten die Software und die Daten 310 Daten der Speichereinheit 142 und des Sprachprogramms 200.
Gemäß diesen Beispielen stellt die Datenübertragungseinheit 307 Datenübertragungen mit anderen Datenverarbeitungssystemen oder-einheiten bereit. Gemäß diesen Beispielen enthält die Datenübertragungseinheit 307 eine oder mehrere Netzwerk-Schnittstellenkarten. Die Datenübertragungseinheit 307 kann Datenübertragungen durch die Verwendung physischer und/oder drahtloser Datenübertragungsverbindungen bereitstellen. Zum Realisieren von Ausführungsformen der vorliegenden Erfindung verwendete Programmanweisungen und Daten (z.B. Software und Daten310) können über die Datenübertragungseinheit 307 in den permanenten Speicher 305 heruntergeladen werden.
Eine oder mehrere E/A-Schnittstellen 306 ermöglichen ein Eingeben und Ausgeben von Daten mit anderen Einheiten, die mit jedem Computersystem verbunden sein können. Eine oder mehrere E/A-Schnittstellen 306 können eine Verbindung zu einer oder mehreren externen Einheiten 308 wie eine Tastatur, ein Ziffernfeld, ein berührungsempfindlicher Bildschirm und/oder eine andere geeignete Eingabeeinheit bereitstellen. Eine oder mehrere externe Einheiten 308 können auch tragbare durch einen Computer lesbare Speichermedien umfassen, zum Beispiel USB-Sticks, tragbare optische oder Magnetplatten und Speicherkarten. Zum Umsetzen von Ausführungsformen der vorliegenden Erfindung verwendete Programmanweisungen und Daten können auf solchen tragbaren durch einen Computer lesbaren Speichermedien gespeichert und über eine oder mehrere E-/A-Schnittstellen 306 in den permanenten Speicher 305 geladen werden. Eine oder mehrere E-/A-Schnittstellen 306 können auch mit dem Bildschirm 309 verbunden sein.
Der Bildschirm 309 stellt einen Mechanismus zum Anzeigen von Daten für einen Benutzer dar, und es kann sich zum Beispiel um einen Computer-Monitor handeln.
Die hierin beschriebenen Programme werden anhand der Anwendung erkannt, für die sie in einer speziellen Ausführungsform der Erfindung ausgeführt werden. Es sollte jedoch einsichtig sein, dass jegliche einzelne hierin genannte Programmbezeichnung nur der Einfachheit verwendet wird und die Erfindung somit nicht nur auf die alleinige Verwendung in einer beliebigen speziellen Anwendung beschränkt sein sollte, die durch eine solche Benennung bezeichnet und/oder nahegelegt wird.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs/Verarbeitungs-Einheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs/Verarbeitungs-Einheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs/Verarbeitungs-Einheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) umfassen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung sind zur Veranschaulichung vorgelegt worden, erheben jedoch nicht den Anspruch auf Vollständigkeit oder Beschränkung auf die offenbarten Ausführungsformen. Dem Fachmann sind viele Modifikationen und Varianten offensichtlich, ohne vom Schutzumfang und Wesensgehalt der Erfindung abzuweichen. Die hierin verwendeten Begriffe wurden gewählt, um die Grundgedanken der Ausführungsform, deren praktische Anwendung oder technische Verbesserung gegenüber handelsüblichen Technologien bestmöglich zu erläutern oder anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.

Claims

Verfahren, das aufweist: Erkennen eines Vortrags eines Benutzers durch einen oder mehrere Prozessoren in Audiodaten des Benutzers; Erkennen von Rückmeldungen eines oder mehrerer Teilnehmer der Zuhörerschaft des Benutzers durch einen oder mehrere Prozessoren, die in Zusammenhang mit dem Vortrag des Benutzers stehen; Erzeugen einer Bewertung des Vortrags des Benutzers durch einen oder mehrere Prozessoren, wobei die Bewertung zumindest teilweise auf der Rückmeldung eines oder mehrerer Teilnehmer der Zuhörerschaft beruht; und Erzeugen einer Vortragsempfehlung für den Vortrag des Benutzers durch einen oder mehrere Prozessoren zumindest teilweise auf der Grundlage der Bewertung des Vortrags.
Verfahren nach Anspruch 1, das ferner aufweist: Ermitteln von Eigenschaften der Zuhörerschaft durch einen oder mehrere Prozessoren, wobei zu den Eigenschaften der Teilnehmer der Zuhörerschaft Klassifizierungen gehören, die zumindest teilweise auf gesammelten Daten beruhen, die entsprechenden Teilnehmern der Zuhörerschaft entsprechen; und Ermitteln von Eigenschaften des Vortrags des Benutzers durch einen oder mehrere Prozessoren, die zumindest teilweise auf eine Stimmanalyse der Audiodaten beruhen.
Verfahren nach Anspruch 2, das ferner aufweist: Vorhersagen eines Ereignisses der Rückmeldung des einen oder der mehreren Teilnehmer der Zuhörerschaft durch einen oder mehrere Prozessoren auf der Grundlage der Eigenschaften der Teilnehmer der Zuhörerschaft.
Verfahren nach Anspruch 1, das ferner aufweist: Korrelieren eines oder mehrerer Abschnitte des Vortrags des Benutzers mit einem oder mehreren Ereignissen der Rückmeldung durch einen oder mehrere Prozessoren zumindest teilweise auf der Grundlage einer Zielstellung des Benutzers; und Bereitstellen der Vortragsempfehlung an den Benutzer durch einen oder mehrere Prozessoren, wobei die Vortragsempfehlung zumindest teilweise auf der Zielstellung und einem mit dem Ereignis der Rückmeldung korrelierten Abschnitt des Vortrags beruht.
Verfahren nach Anspruch 1, wobei ein Erkennen der Rückmeldung eines oder mehrerer Teilnehmer der Zuhörerschaft des Benutzers, die in Beziehung zum Vortrag des Benutzers steht, ferner aufweist: Erkennen eines oder mehrerer Ereignisse des einen oder mehrerer Teilnehmer der Zuhörerschaft durch einen oder mehrere Prozessoren, wobei das eine oder mehrere Ereignisse zumindest teilweise auf Gesichtsausdrücken des einen oder mehrerer Teilnehmer der Zuhörerschaft beruhen; und Ermitteln einer Stimmung der Zuhörerschaft durch einen oder mehrere Prozessoren auf der Grundlage eines oder mehrerer Ereignisse der Teilnehmer der Zuhörerschaft.
Verfahren nach Anspruch 1, wobei ein Erzeugen der Bewertung des Vortrags des Benutzers ferner aufweist: Umwandeln eines oder mehrerer Ereignisse der Rückmeldung des einen oder mehrerer Teilnehmer der Zuhörerschaft durch einen oder mehrere Prozessoren in Textdaten; Erkennen eines oder mehrerer Abschnitte des Vortrags des Benutzers in Zusammenhang mit dem einen oder mehreren Ereignissen und einer oder mehreren Qualitätsdimensionen durch einen oder mehrere Prozessoren, wobei es sich bei der einen oder mehreren Qualitätsdimensionen um Kategorien handelt, die in die Bewertung des Vortrags des Benutzers einbezogen sind; und Erzeugen einer Bewertungszahl für die eine oder mehrere Qualitätsdimensionen durch einen oder mehrere Prozessoren zumindest teilweise auf der Grundlage des einen oder mehrerer Ereignisse und des einen oder mehrerer erkannten Abschnitte des Vortrags des Benutzers.
Verfahren nach Anspruch 1, wobei das Erzeugen der Vortragsempfehlung für den Vortrag des Benutzers zumindest teilweise auf der Grundlage der Bewertung des Vortrags ferner aufweist: Erkennen einer Qualitätsdimension mit einer Bewertungszahl unterhalb eines definierten Schwellenwertes durch einen oder mehrere Prozessoren; und Erzeugen von Textdaten durch einen oder mehrere Prozessoren, die eine Empfehlung für den Benutzer in Bezug auf seinen Vortrag enthalten, die der Qualitätsdimension entspricht, wobei durch Befolgen der Empfehlung die Bewertungszahl der Qualitätsdimension erhöht wird.
Computerprogrammprodukt, das aufweist: ein oder mehrere durch einen Computer lesbare Speichermedien und auf dem einen oder mehreren durch einen Computer lesbaren Speichermedien gespeicherte Programmanweisungen, wobei die Programmanweisungen aufweisen: Programmanweisungen zum Erkennen des Vortrags eines Benutzers in Audiodaten des Benutzers; Programmanweisungen zum Erkennen von Rückmeldungen eines oder mehrerer Teilnehmer der Zuhörerschaft des Benutzers, die in Zusammenhang mit dem Vortrag des Benutzers stehen; Programmanweisungen zum Erzeugen einer Bewertung des Vortrags des Benutzers, wobei die Bewertung zumindest teilweise auf der Rückmeldung des einen oder mehrerer Teilnehmer der Zuhörerschaft beruht; und Programmanweisungen zum Erzeugen einer Vortragsempfehlung für den Vortrag des Benutzers zumindest teilweise auf der Grundlage der Bewertung des Vortrags.
Computersystem, das aufweist: einen oder mehrere Computer-Prozessoren; ein oder mehrere durch einen Computer lesbare Speichermedien; und auf den durch einen Computer lesbaren Speichermedien gespeicherte Programmanweisungen zum Ausführen durch mindestens einen des einen oder mehrere Prozessoren, wobei die Programmanweisungen aufweisen: Programmanweisungen zum Erkennen eines Vortrags eines Benutzers in Audiodaten des Benutzers; Programmanweisungen zum Erkennen von Rückmeldungen eines oder mehrerer Teilnehmer der Zuhörerschaft des Benutzers, die in Zusammenhang mit dem Vortrag des Benutzers stehen; Programmanweisungen zum Erzeugen einer Bewertung des Vortrags des Benutzers, wobei die Bewertung zumindest teilweise auf der Rückmeldung des einen oder mehrerer Teilnehmer der Zuhörerschaft beruht; und Programmanweisungen zum Erzeugen einer Vortragsempfehlung für den Vortrag des Benutzers zumindest teilweise auf der Grundlage der Bewertung des Vortrags.