DE112016002588T5

DE112016002588T5 - Kontextgetriebenes nachrichtenübermittlungssystem

Info

Publication number: DE112016002588T5
Application number: DE112016002588.2T
Authority: DE
Inventors: Evan Nicklas Wu Malahy
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-06-10
Filing date: 2016-05-04
Publication date: 2018-05-24
Also published as: WO2016200517A1; US10129198B2; US9807045B2; US20180048610A1; GB201715625D0; GB2556988A; US20160366084A1

Abstract

Ein Verfahren kann ein Empfangen, durch ein mit einem Benutzer assoziiertes Computergerät, einer Nachricht von einer Herkunftsquelle und ein Empfangen, durch das Computergerät, einer Audioeingabe und ein Bestimmen, durch das Computergerät und zumindest teilweise basierend auf der Audioeingabe und Kontextinformationen, einer Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden, beinhalten. Das Verfahren kann in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, ein Bestimmen, durch das Computergerät, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, und in Reaktion auf ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, ein Erzeugen, durch das Computergerät und basierend auf der Audioeingabe, der Antwortnachricht und ein Senden, durch das Computergerät, der Antwortnachricht an die Herkunftsquelle beinhalten.

Description

ALLGEMEINER STAND DER TECHNIK
Einige Computergeräte sind mit einer Spracherkennungs-Funktionalität ausgestattet, um gesprochene Sprache in Schrift umzuwandeln. Ein Computergerät kann zum Beispiel mit Spracherkennungs-Funktionalität ausgestattet sein, die eine Audioeingabe (z. B. eine Stimme eines Benutzers) empfangen und schriftlichen Inhalt (z. B. eine SMS-Nachricht, E-Mail, Suchanfrage, einen Gerätebefehl usw.) basierend auf der Audioeingabe bestimmen kann. Einige Computergeräte sind mit Sprachsynthese-Funktionalität ausgestattet, um geschriebenen Text in gesprochenes Wort umzuwandeln. Zum Beispiel kann ein Computergerät mit Sprachsynthese-Funktionalität ausgestattet sein, die Textinhalte empfangen und Audiodaten ausgeben kann, die die Textinhalte angeben.
Ein Benutzer kann einem Computergerät befehlen, eine Audioeingabe zu suchen, damit das Computergerät die Audioeingabe empfängt und die Audioeingabe in Text umwandelt. Es kann notwendig sein, dass der Benutzer die Inhalte der Nachricht bestätigt und dem Computergerät befiehlt, die Nachricht zu senden. Es kann notwendig sein, dass der Benutzer diese Schritte jedes Mal durchgeht, wenn der Benutzer eine Nachricht senden möchte.
Ebenso kann ein Computergerät eine Textkommunikation empfangen und den Benutzer fragen, ob der Benutzer die Inhalte der Kommunikation hören möchte. Das Computergerät kann dem Benutzer jedes Mal eine Eingabeaufforderung anzeigen, wenn eine Textkommunikation empfangen wird, bevor es den Text in Sprache umwandelt.
KURZDARSTELLUNG DER OFFENBARUNG
In einem Beispiel kann ein Verfahren ein Empfangen, durch ein mit einem Benutzer assoziiertes Computergerät, einer Nachricht von einer Herkunftsquelle und ein Empfangen, durch das Computergerät, einer Audioeingabe beinhalten. Das Verfahren kann ein Bestimmen, durch das Computergerät und zumindest teilweise auf der Audioeingabe und Kontextinformationen basierend, einer Wahrscheinlichkeit beinhalten, dass der Benutzer die Absicht hat, eine Antwortnachricht an die Herkunftsquelle zu senden. Das Verfahren kann des Weiteren in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer die Absicht hat, die Antwortnachricht an die Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, ein Bestimmen, durch das Computergerät, beinhalten, dass der Benutzer die Absicht hat, die Antwortnachricht an die Herkunftsquelle zu senden. Das Verfahren kann zudem in Reaktion auf ein Bestimmen, dass der Benutzer die Absicht hat, die Antwortnachricht an die Herkunftsquelle zu senden, ein Erzeugen, durch das Computergerät und basierend auf der Audioeingabe, der Antwortnachricht und ein Senden, durch das Computergerät, der Antwortnachricht an die Herkunftsquelle beinhalten.
In einem anderen Beispiel kann ein Gerät ein Audioausgabegerät, ein Audioeingabegerät, eine Kommunikationseinheit und ein Nachrichtenverwaltungsmodul, betreibbar durch den zumindest einen Prozessor, beinhalten. Das Nachrichtenverwaltungsmodul kann über die Kommunikationseinheit eine Nachricht von einer Herkunftsquelle empfangen. Das Nachrichtenverwaltungsmodul kann auch über das Audioeingabegerät eine Audioeingabe empfangen. Das Nachrichtenverwaltungsmodul kann des Weiteren zumindest teilweise auf der Audioeingabe und den Kontextinformationen basierend eine Wahrscheinlichkeit bestimmen, dass ein mit dem Gerät assoziierter Benutzer die Absicht hat, eine Antwortnachricht an die Herkunftsquelle zu senden. Das Nachrichtenverwaltungsmodul kann in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer die Absicht hat, die Antwortnachricht an die Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, bestimmen, dass der Benutzer die Absicht hat, die Antwortnachricht an die Herkunftsquelle zu senden. Das Nachrichtenverwaltungsmodul kann zudem in Reaktion auf ein Bestimmen, dass der Benutzer die Absicht hat, die Antwortnachricht an die Herkunftsquelle zu senden, basierend auf der Audioeingabe die Antwortnachricht erzeugen und die Antwortnachricht über die Kommunikationseinheit an die Herkunftsquelle senden.
In einem weiteren Beispiel kann ein computerlesbares Speichermedium Anweisungen beinhalten, die, wenn sie ausgeführt werden, einen oder mehrere Prozessoren eines Computersystems konfigurieren, eine Nachricht von einer Herkunftsquelle zu empfangen, eine Audioeingabe zu empfangen, zumindest teilweise auf der Audioeingabe und Kontextinformationen basierend eine Wahrscheinlichkeit zu bestimmen, dass ein mit dem Computersystem assoziierter Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden und in Reaktion auf das Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, zu bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden. Die Anweisungen konfigurieren, wenn sie ausgeführt werden, des Weiteren den einen oder die mehreren Prozessoren, in Reaktion auf ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, basierend auf der Audioeingabe die Antwortnachricht zu erzeugen und die Antwortnachricht an die Herkunftsquelle zu senden.
In einem anderen Beispiel kann ein Verfahren das Ausgeben eines Audiosignals durch ein mit einem Benutzer assoziiertes Computergerät beinhalten, das eine Textnachricht von einer Herkunftsquelle repräsentiert. Das Verfahren kann ein Empfangen, durch das Computergerät, von Audiodaten beinhalten, die eine Sprachäußerung vom Benutzer repräsentieren. Das Verfahren kann ebenfalls beinhalten, ohne zusätzliche Eingaben vom Benutzer durch das Computergerät eine Wahrscheinlichkeit zu bestimmen, dass der Benutzer beabsichtigt, eine Antwort zu senden, zumindest teilweise auf den Audiodaten und einem oder mehreren aus Frequenz eingehender Nachrichten von der Herkunftsquelle, Frequenz von ausgehenden Nachrichten an die Herkunftsquelle, Zeit seit der letzten empfangenen Nachricht von der Herkunftsquelle oder Zeit seit der letzten gesendeten Nachricht an die Herkunftsquelle basierend. Das Verfahren kann des Weiteren, in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit einen Schwellenwert erreicht und ohne zusätzliche Eingaben vom Benutzer, ein Übertragen einer Transkription zumindest eines Teils der Audiodaten an die Herkunftsquelle beinhalten.
Die Details von einem oder mehreren Beispielen der Offenbarung sind in den zugehörigen Zeichnungen und der Beschreibung nachfolgend ausgeführt. Andere Merkmale, Gegenstände und Vorteile der Erfindung werden aus der Beschreibung und den Zeichnungen sowie aus den Ansprüchen ersichtlich.
Figurenliste

1 zeigt ein konzeptuelles Diagramm, das ein exemplarisches System zum Senden und Empfangen von textbasierten Nachrichten gemäß einem oder mehreren Aspekten der vorliegenden Offenbarung veranschaulicht.
2 zeigt ein Blockdiagramm, das ein exemplarisches Computergerät, das zum Senden und Empfangen von textbasierten Nachrichten konfiguriert ist, gemäß einem oder mehreren Aspekten der vorliegenden Offenbarung veranschaulicht.
FIGs. 3A-3H zeigen konzeptuelle Diagramme, die einen exemplarischen Betrieb des Computergeräts veranschaulichen.
4 zeigt ein Ablaufdiagramm, das einen exemplarischen Betrieb des Computergeräts veranschaulicht.
5 zeigt ein Ablaufdiagramm, das einen exemplarischen Betrieb des Computergeräts veranschaulicht.

AUSFÜHRLICHE BESCHREIBUNG
Im Allgemeinen können Techniken aus dieser Offenbarung es einem Computergerät ermöglichen, automatisch zu bestimmen, dass ein Benutzer eine textvermittelte Konversation führt, und die textvermittelte Konversation erleichtern. In einigen Beispielen kann das Computergerät automatisch Sprachsynthese-Umwandlungen an eingehenden Kommunikationen durchführen und automatisch Spracherkennungs-Umwandlungen an ausgehenden Kommunikationen durchführen. In mehreren Fällen können es Techniken aus dieser Offenbarung einem Computergerät ermöglichen, intelligent einen beabsichtigten Empfänger einer ausgehenden Kommunikation zu bestimmen. Ein Computergerät kann eine Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Nachricht an einen bestimmten Empfänger zu senden, und basierend auf der Wahrscheinlichkeit bestimmen, ob eine Nachricht an den bestimmten Empfänger gesendet wird. Auf diese Weise können Techniken aus dieser Offenbarung, anstatt zu erfordern, dass der Benutzer dem Computergerät den Befehl erteilt, eine Nachricht zu senden, den Empfänger und den Inhalt der Nachricht zu bestätigen, es dem Computergerät ermöglichen, die Konversation automatisch zu erkennen und automatisch einen beabsichtigten Empfänger einer ausgehenden Kommunikation zu bestimmen, was den Umfang der Benutzerinteraktion reduzieren kann, die nötig ist, damit der Benutzer an der Konversation teilnehmen kann.
1 zeigt ein konzeptuelles Diagramm, das gemäß einem oder mehreren Aspekten der vorliegenden Offenbarung System 100 als ein exemplarisches System zum Senden und Empfangen von textbasierten Nachrichten veranschaulicht. System 100 beinhaltet Computergerät 110, Informationsserversystem („ISS“) 160 und Nachrichtenübermittlungsgeräte 115A-115N (kollektiv als „Nachrichtenübermittlungsgeräte 115“), die über Netzwerk 130 kommunikativ gekoppelt sind.
Nachrichtenübermittlungsgeräte 115 repräsentieren jeweils ein Computergerät, wie z. B. ein Mobiltelefon, einen Laptop-Computer, einen Desktop-Computer oder eine andere Art von Computergerät, das konfiguriert ist, Informationen über ein Netzwerk, wie z. B. Netzwerk 130, zu senden und zu empfangen. Nachrichtenübermittlungsgeräte 115 beinhalten textbasierte Nachrichtenübermittlungsanwendungen zum Senden und Empfangen von textbasierten Nachrichten, wie z. B. E-Mail, Kurzmitteilungsdienst (SMS), Multimedia-Mitteilungsdienst (MMS), Sofortmitteilungen (IM) oder andere Arten von textbasierten Nachrichten. Die Nachrichtenübermittlungsgeräte 115 bilden eine Gruppe von Nachrichtenübermittlungsgeräten, von denen aus die jeweiligen mit den Nachrichtenübermittlungsgeräten 115A-115N assoziierten Benutzer textbasierte Nachrichten an Computergerät 110 senden und textbasierte Nachrichten von Computergerät 110 empfangen können.
Computergerät 110 kann ein Mobilgerät, wie z. B. ein Mobiltelefon, ein Tablet-Computer, ein Laptop-Computer, eine computergestützte Uhr, eine computergestützte Brille, computergestützte Handschuhe oder eine andere Art von tragbarem Computergerät sein. Zusätzliche Beispiele von Computergerät 110 beinhalten Desktop-Computer, Fernseher, persönliche digitale Assistenten (PDA), tragbare Spielsysteme, Mediaplayer, E-Book-Reader, mobile Fernsehplattformen, Automobil-Navigations- und Entertainment-Systeme oder beliebige andere Arten von tragbaren und nicht tragbaren Computergeräten, die konfiguriert sind, um Informationen über ein Netzwerk, wie beispielsweise das Netzwerk 130, zu senden und zu empfangen.
Computergerät 110 beinhaltet ein Benutzeroberflächengerät 112, ein Benutzeroberflächen (UI)-Modul 111 und ein Nachrichtenverwaltungsmodul (MMM) 120. Module 111, 120 können beschriebene Vorgänge unter Verwendung von Software, Hardware, Firmware oder einer Kombination aus Software, Hardware und Firmware ausführen, die im Computergerät 110 resident ist und/oder darauf ausgeführt wird. Computergerät 110 kann die Module 111, 120 mit mehreren Prozessoren oder mehreren Geräten ausführen. Computergerät 110 kann die Module 111, 120 als virtuelle Maschinen, die auf zugrundeliegender Hardware ausgeführt werden, ausführen. Die Module 111, 120 können als ein oder mehrere Dienste eines Betriebssystems oder einer Computerplattform ausgeführt werden. Die Module 111, 120 können als ein oder mehrere ausführbare Programme auf einer Anwendungsebene einer Computerplattform ausgeführt werden.
UID 112 des Computergeräts 110 kann als entsprechendes Eingabe- und/oder Ausgabegerät für das Computergerät 110 fungieren. UID 112 kann unter Verwendung verschiedener Technologien implementiert sein. UID 112 kann beispielsweise unter Verwendung von präsenzempfindlichen Eingabebildschirmen, wie z. B. resistiven Touchscreens, SAW-Touchscreens (Surface Acoustic Wave, akustische Oberflächenwelle), kapazitiven Touchscreens, projektiv-kapazitiven Touchscreens, druckempfindlichen Bildschirmen, APR-Touchscreens (Acoustic Pulse Recognition, akustische Impulserkennung) oder anderer präsenzempfindlicher Anzeigetechnologie, als Eingabegerät fungieren. Zusätzlich kann UID 112 Mikrofontechnologien, Infrarot-Sensortechnologien oder andere Eingabegerätetechnologie für die Verwendung beim Empfangen von Benutzereingaben beinhalten.
UID 112 kann zudem unter Verwendung eines Anzeigegeräts oder mehrerer Anzeigegeräte, wie z. B. LCDs („Liquid Crystal Display“, Flüssigkristallanzeigen), Punktmatrixanzeigen, LED-Anzeigen („Light Emitting Diode“, Leuchtdiodenanzeigen), OLED-Anzeigen („Organic Light Emitting Diode“, organische Leuchtdiodenanzeigen), E-Papier-Anzeigen oder ähnlichen Monochrom- oder Farbanzeigen, die sichtbare Informationen für einen Benutzer eines Computergeräts 110 ausgeben können, als Ausgabegerät (z. B. Anzeigegerät) fungieren. Zusätzlich kann UID 112 Lautsprechertechnologien, haptische Rückkopplungstechnologien oder andere Ausgabegerätetechnologie zur Verwendung bei der Ausgabe von Informationen an einen Benutzer beinhalten.
UID 112 kann jeweils präsenzempfindliche Anzeigen beinhalten, die eine taktile Eingabe von einem Benutzer des jeweiligen Computergeräts 110 empfangen können. UID 112 kann Angaben von taktilen Eingaben empfangen, indem es eine oder mehrere Gesten von einem Benutzer erkennt (z. B. von dem Benutzer, der mit einem Finger oder einem Stift eine oder mehrere Stellen von UID 112 berührt oder darauf zeigt). UID 112 kann einem Benutzer Ausgaben präsentieren, z. B. auf jeweiligen präsenzempfindlichen Anzeigen. UID 112 kann die Ausgabe als jeweilige grafische Benutzeroberflächen (z. B. Benutzeroberfläche 114) darstellen, die der von dem Computergerät 110 bereitgestellten Funktionalität zugeordnet sein können. Beispielsweise kann UID 112 verschiedene Benutzeroberflächen (z. B. Benutzeroberfläche 114) präsentieren, die sich auf textbasierte Nachrichten oder andere Merkmale von Computerplattformen, Betriebssystemen, Anwendungen und/oder Diensten beziehen, die an oder von Computergerät 110 ausgeführt werden oder zugänglich sind (z. B. elektronische Nachrichtenanwendungen, Internetbrowser-Anwendungen, mobile oder Desktop-Betriebssysteme usw.). UID 112 kann Audiosignale, beispielsweise unter Verwendung eines Lautsprechers, an einen Benutzer ausgeben. Zum Beispiel kann UID 112 Audiosignale ausgeben, die den Inhalt einer textbasierten Nachricht angeben.
UI-Modul 111 verwaltet Benutzerinteraktionen mit UID 112 und anderen Komponenten des Computergeräts 110. UI-Modul 111 kann UID 112 veranlassen, eine Benutzeroberfläche, wie z. B. Benutzeroberfläche 114 (oder andere exemplarische Benutzeroberflächen), zur Anzeige auszugeben, wenn ein Benutzer von Computergerät 110 Ausgaben betrachtet und/oder Eingaben an UID 112 vornimmt. UI-Modul 111 und UID 112 können eine oder mehrere Angaben von Eingaben von Benutzern zu unterschiedlichen Zeitpunkten erhalten, wenn die Benutzer mit der grafischen Benutzeroberfläche interagieren und wenn sich die Benutzer und Computergerät 110 an unterschiedlichen Standorten befmden. UI-Modul 111 und UID 112 können an UIDs 112 erkannte Eingaben interpretieren und Informationen zu den an UID 112 erkannten Eingaben an eine/einen/ein oder mehrere verknüpfte Plattformen, Betriebssysteme, Anwendungen und/oder Dienste weiterleiten, die auf Computergerät 110 ausgeführt werden, um z. B. Computergerät 110 zu veranlassen, Funktionen auszuführen.
UI-Modul 111 kann Informationen und Anweisungen von einer/einem oder mehreren verknüpften Plattformen, Betriebssystemen, Anwendungen und/oder Diensten empfangen, die an Computergerät 110 und/oder einem oder mehreren Remote-Computersystemen, wie z. B. ISS 160, ausgeführt werden. Zusätzlich kann UI-Modul 111 als ein Zwischenelement zwischen der/dem einen oder den mehreren verknüpften Plattformen, Betriebssystemen, Anwendungen und/oder Diensten agieren, die am Computergerät 110 und den unterschiedlichen Ausgabegeräten des Computergeräts 110 (z. B. Lautsprecher, LED-Anzeigen, Audio- oder elektrostatische haptische Ausgabegeräte usw.) ausgeführt werden, um eine Ausgabe (z. B. eine Grafik, einen Lichtblitz, einen Ton, eine haptische Reaktion usw.) mit dem Computergerät 110 zu produzieren.
Das ISS 160 repräsentiert jedes Remote-Computersystem, wie z. B. eine oder mehrere Desktop-Computer, Laptops, Mainframes, Server, Cloud-Computing-Systeme usw., die zum Senden und Empfangen von Informationen in und aus einem Netzwerk, wie z. B. Netzwerk 130, in der Lage sind. ISS 160 hostet (oder bietet zumindest Zugriff auf) Spracherkennungsdienste zum Umwandeln von Sprache in textbasierte Nachrichten und Sprachsynthesedienste zum Umwandeln von textbasierten Nachrichten in Audiodaten. In einigen Beispielen repräsentiert ISS 160 ein Cloud-Computersystem, das Spracherkennungs- und Sprachsynthesedienste durch Netzwerk 130 für ein oder mehrere Computergeräte 110 bereitstellt, die über Zugriff auf die durch ISS 160 bereitgestellte Cloud auf die Spracherkennungs- und Sprachsynthesedienste zugreifen.
Das Netzwerk 130 repräsentiert ein beliebiges öffentliches oder privates Kommunikationsnetz, beispielsweise ein Mobilfunknetz, Wi-Fi und/oder einen anderen Netzwerktyp zum Übertragen von Daten zwischen Computersystemen, Servern und Computergeräten. Netzwerk 130 kann einen oder mehrere Netzwerk-Hubs, Netzwerk-Switches, Netzwerk-Router oder beliebige andere Netzwerkgeräte beinhalten, die operativ miteinander gekoppelt sind, wodurch der Austausch von Informationen zwischen dem ISS 160, Computergerät 110 und den Nachrichtenübermittlungsgeräten 115 bereitgestellt wird. Computergerät 110, Nachrichtenübermittlungsgeräte 115 und ISS 160 können Daten unter Verwendung von beliebigen geeigneten Kommunikationstechniken über das Netzwerk 130 senden und empfangen.
ISS 160, Computergerät 110 und Nachrichtenübermittlungsgeräte 115 können jeweils operativ unter Verwendung entsprechender Netzwerkverbindungen mit Netzwerk 130 gekoppelt sein. ISS 160, Computergerät 110 und Nachrichtenübermittlungsgeräte 115 können operativ unter Verwendung verschiedener Netzwerkverbindungen mit Netzwerk 130 gekoppelt sein. Die Verbindungen, die ISS 160, Computergerät 110 und Nachrichtenübermittlungsgeräte mit dem Netzwerk 130 verbinden, können Ethernet, ATM oder andere Arten von Netzwerkverbindungen sein, zudem kann es sich bei diesen Verbindungen um drahtlose und/oder drahtgebundene Verbindungen handeln.
Gemäß Techniken der vorliegenden Offenbarung kann System 100 automatisch die Konversation erkennen und automatisch einen beabsichtigten Empfänger einer ausgehenden Kommunikation bestimmen. Zum Beispiel können ein oder mehrere Nachrichtenübermittlungsgeräte 115 über Netzwerk 130 eine Nachricht an Computergerät 110 senden. Computergerät 110 empfängt die Nachricht und kann in Reaktion darauf eine Angabe der Nachricht ausgeben. Computergerät 110 kann bestimmen, ob es eine visuelle (z. B. grafische) oder akustische Angabe der Nachricht ausgibt. Computergerät 110 kann bestimmen, ob es eine Angabe der Nachricht ohne zusätzliche Eingaben (z. B. akustische oder gestikbasierte Eingaben) vom Benutzer ausgibt.
In Reaktion auf ein Bestimmen, eine Audioangabe der Nachricht auszugeben, kann Computergerät 110 die textbasierte Nachricht in Audiodaten umwandeln, die die Nachricht angeben, indem sie Sprachsyntheseverarbeitung an der Nachricht durchführen. In einigen Beispielen kann Computergerät 110, um die textbasierte Nachricht in Audiodaten umzuwandeln, zumindest einen Teil der Nachricht zur Sprachsyntheseverarbeitung an ISS 160 senden. Sprachsynthesemodul 164 von ISS 160 kann zumindest einen Teil der Nachricht in Audiodaten umwandeln, während ISS 160 die Audiodaten an Computergerät 110 senden kann. In mehreren Fällen können Computergerät 110 und ISS 160 jeweils Sprachsyntheseverarbeitung an zumindest einem Teil der Nachricht durchführen, um die textbasierte Nachricht in Audiodaten umzuwandeln, die den Inhalt der Nachricht angeben. Computergerät 110 kann die Audiodaten über UID 112 ausgeben.
Nachdem Computergerät 110 Audiodaten ausgibt, die die empfangene Nachricht angeben, kann Computergerät 110 erkennen, dass ein Benutzer spricht (z. B. in einer Konversation mit einer anderen Person, beim Bereitstellen einer Audioeingabe an Computergerät 110, beim Mitsingen eines Lieds im Radio, usw.). Computergerät 110 kann Audiodaten der Sprache über UID 112 empfangen und basierend auf den Audiodaten bestimmen, ob es eine textbasierte Antwortnachricht sendet. Computergerät 110 kann bestimmen, ob es ohne zusätzliche Eingaben (z. B. akustische oder gestikbasierte Eingaben) vom Benutzer eine textbasierte Antwortnachricht sendet.
Wenn Computergerät 110 bestimmt, dass der Benutzer beabsichtigt hat, eine Antwortnachricht zu senden, kann Computergerät 110 die Audiodaten in Textdaten umwandeln, die die Audiodaten angeben, indem es Spracherkennungsverarbeitung an den Audiodaten durchführt. In einigen Beispielen kann Computergerät 110 zumindest einen Teil der Audiodaten zur Spracherkennungsverarbeitung an ISS 160 senden. Spracherkennungsmodul 162 kann zumindest einen Teil der Audiodaten in Textdaten umwandeln, während ISS 160 die Textdaten an Computergerät 110 senden kann. In einigen Beispielen können sowohl Computergerät 110 als auch ISS 160 Spracherkennungsverarbeitung an zumindest einem Teil der Audiodaten durchführen und die Audiodaten in Textdaten umwandeln, die die Audiodaten angeben. Computergerät 110 kann unter Verwendung der Textdaten eine textbasierte Antwortnachricht erzeugen. Computergerät 110 kann die Antwortnachricht an ein bestimmtes Nachrichtenübermittlungsgerät 115 senden.
Computergerät 110 kann eine textbasierte Nachricht von Nachrichtenübermittlungsgerät 115A empfangen. Nachrichtenübermittlungsgerät 115A kann mit einem Kontakt in der Kontaktliste von Computergerät 115S (z. B. Aaron) assoziiert sein. Computergerät 110 kann über UI 114 einen grafischen Hinweis auf die Nachricht ausgeben. Zum Beispiel kann Computergerät 110 UI 114 veranlassen, die Nachricht auszugeben: „Ankommende Nachricht von Aaron: ,Kommst du heute Abend zu Jimmy?‘“ Ebenso kann Computergerät 110 eine textbasierte Nachricht von einem zweiten Nachrichtenübermittlungsgerät 115B empfangen, die mit einem Kontakt in der Kontaktliste für Computergerät 110 (z. B. Jimmy) assoziiert sein kann. Computergerät 110 kann UI 114 veranlassen, die Nachricht auszugeben: „Ankommende Nachricht von Jimmy: ,Kommst du heute Abend?‘“
In einigen Beispielen kann MMM 120 bestimmen, eine Audioangabe der empfangenen Nachrichten auszugeben. In einigen Beispielen bestimmt MMM 120, ob es eine Audioangabe der Nachricht ohne zusätzliche Eingaben vom Benutzer ausgibt. In Reaktion auf ein Bestimmen, einen Audioangabe der ersten Nachricht auszugeben, kann Computergerät 110 das UID 112 (z. B. einen Lautsprecher) veranlassen, die Audiodaten auszugeben: „Ankommende Nachricht von Aaron: ,Kommst du heute Abend zu Jimmy?‘“ In Reaktion auf ein Bestimmen, eine Audioangabe der zweiten Nachricht auszugeben, kann Computergerät 110 UID 112 (z. B. einen Lautsprecher) veranlassen, die Audiodaten auszugeben: „Ankommende Nachricht von Jimmy: ,Kommst du heute Abend?‘“
Nachdem Computergerät 110 die Audiodaten ausgibt, die die erste empfangene Nachricht und/oder die zweite empfangene Nachricht angeben, kann ein Benutzer von Computergerät 110 eine Antwort sprechen. Zum Beispiel kann der Benutzer auf die erste Nachricht antworten, indem er „Ja.“ sagt. Computergerät 110 kann die Antwort des Benutzers erkennen und kann über UID 112 (z. B. ein Mikrofon) Audiodaten empfangen, die die Antwort angeben. MMM 120 kann bestimmen, ob es eine textbasierte Antwortnachricht an Nachrichtenübermittlungsgerät 115A sendet. In einigen Beispielen kann MMM 120 ohne zusätzliche Eingaben vom Benutzer die Bestimmung treffen, ob es eine Antwortnachricht sendet. In Reaktion auf ein Bestimmen, eine Antwortnachricht an Nachrichtenübermittlungsgerät 115A zu senden, kann Computergerät 110 basierend auf Audiodaten eine textbasierte Antwortnachricht erzeugen. Computergerät 110 kann die Antwortnachricht an Nachrichtenübermittlungsgerät 115A senden. In einigen Beispielen kann Computergerät 110 einen visuellen oder akustischen Hinweis ausgeben, dass die Antwortnachricht gesendet wurde. Zum Beispiel kann das Computergerät die Audiodaten „Nachricht an Aaron gesendet“ ausgeben.
Ein Benutzer von Computergerät 110 kann auf die zweite empfangene Nachricht antworten, zum Beispiel indem er „Ja.“ sagt. Computergerät 110 kann die Antwort des Benutzers erkennen, und MMM 120 kann bestimmen, ob es eine textbasierte Antwortnachricht an eine oder beide der Nachrichtenübermittlungsgeräte 115A, 115B sendet. In einigen Beispielen kann MMM 120 die Bestimmung ohne zusätzliche Eingaben vom Benutzer treffen. In einigen Beispielen kann MMM 120 bestimmen, eine Antwortnachricht an nur ein Nachrichtenübermittlungsgerät (z. B. Nachrichtenübermittlungsgerät 115B) zu senden. Computergerät 110 kann basierend auf den Audiodaten eine textbasierte Antwortnachricht erzeugen. Computergerät 110 kann die Antwortnachricht an Nachrichtenübermittlungsgerät 115B senden. In einigen Beispielen kann Computergerät 110 einen visuellen oder akustischen Hinweis ausgeben, dass die Antwortnachricht gesendet wurde. Zum Beispiel kann Computergerät 110 die Audiodaten „Nachricht an Jimmy gesendet.“ ausgeben.
Techniken dieser Offenbarung können den Austausch von textbasierten Nachrichten vereinfachen und beschleunigen. Indem sie automatisch bestimmen, ob ein Benutzer eine textbasierte Konversation führt, können Techniken dieser Offenbarung umständliche und zeitaufwendige Eingabeaufforderungen, Stimmbestätigungen und Berührungseingaben reduzieren oder eliminieren, die anderenfalls nötig wären, um eine textbasierte Nachricht zu senden oder eine empfangene textbasierte Nachricht zu hören. Techniken dieser Offenbarung können es einem Computergerät ermöglichen, effizient Kommunikationen zu verarbeiten, indem sie die Konversation von einem mühsamen transaktionsorientierten Ansatz in einen natürlicheren dialogorientierten Ansatz überführen.
2 zeigt ein konzeptuelles Diagramm, das ein exemplarisches Computergerät veranschaulicht, das konfiguriert ist, textbasierte Nachrichten zu senden und zu empfangen. Computergerät 210 aus 2 wird nachfolgend innerhalb des Kontextes von 1 beschrieben. 2 veranschaulicht nur ein bestimmtes Beispiel von Computergerät 210, während viele andere Beispiele von Computergerät 210 in anderen Fällen verwendet werden können. Andere Beispiele des Computergeräts 210 können eine Teilmenge der Komponenten beinhalten, die in dem exemplarischen Computergerät 210 enthalten sind, oder können zusätzliche Komponenten beinhalten, die nicht in 2 dargestellt werden.
Wie im Beispiel aus 2 dargestellt, beinhaltet Computergerät 210 ein Benutzeroberflächengerät (UID) 212, einen oder mehrere Prozessoren 240, eine oder mehrere Eingabegeräte 242, eine oder mehrere Kommunikationseinheiten 244, eine oder mehrere Ausgabegeräte 246 und ein oder mehrere Speichergeräte 248. Speichergerät 248 von Computergerät 210 beinhaltet zudem Nachrichtenverwaltungsmodul 220. MMM 220 kann Anwendungsmodule 222A-222N (kollektiv als „Anwendungsmodule 222“ bezeichnet), Spracherkennungsmodul 224, Sprachsynthesemodul 226 und Konversationsverwaltungsmodul (CMM) 228 beinhalten. Ein oder mehrere Kommunikationskanäle 250 können jede der Komponenten 212, 240, 242, 244, 246 und 248 zwecks Kommunikation zwischen den Komponenten (physisch, kommunikativ und/oder operativ) verbinden. In einigen Beispielen können die Kommunikationskanäle 250 einen Systembus, eine Netzwerkverbindung, eine prozessübergreifende Kommunikationsdatenstruktur oder eine andere Technik zur Kommunikation von Daten beinhalten.
Ein oder mehrere Eingabegeräte 242 des Computergeräts 210 können Eingaben empfangen. Beispiele von Eingaben sind taktile, Bewegungs-, Audio- und Videoeingaben. Die Eingabegeräte 242 des Computergeräts 210 können in einem Beispiel eine präsenzempfindliche Anzeige 213, einen berührungsempfindlichen Bildschirm, eine Maus, eine Tastatur, ein Sprachreaktionssystem, eine Videokamera, ein Mikrofon (z. B. Mikrofon 243) oder eine andere Art von Gerät zum Erkennen von Eingaben von Mensch oder Maschine beinhalten.
Ein oder mehrere Ausgabegeräte 246 von Computergerät 210 können Ausgaben erzeugen. Beispiele von Ausgaben sind taktile, elektromagnetische, Audio- und Videoausgaben. Die Ausgabegeräte 246 von Computergerät 210 beinhalten in einem Beispiel eine präsenzempfindliche Anzeige, Lautsprecher (z. B. Lautsprecher 247), einen Kathodenstrahlröhren (CRT)-Monitor, eine Flüssigkristallanzeige (LCD) oder eine andere Art von Gerät zum Erzeugen von Ausgaben an Mensch oder Maschine. Die Ausgabegeräte 246 können eine oder mehrere aus einer Soundkarte oder einer Videografikadapterkarte verwenden, um jeweils akustische oder visuelle Ausgaben zu produzieren.
Eine oder mehrere Kommunikationseinheiten 244 von Computergerät 210 können über ein oder mehrere Netzwerke mit externen Geräten kommunizieren, indem sie Netzwerksignale über das eine oder die mehreren Netzwerke senden und/oder empfangen. Die Kommunikationseinheiten 244 können sich mit jedwedem öffentlichen oder privaten Kommunikationsnetzwerk verbinden. So kann beispielsweise das Computergerät 210 Kommunikationseinheit 244 verwenden, um Funksignale in einem Funknetz, wie z. B. einem Mobilfunknetz, zu senden und/oder zu empfangen. Gleichermaßen können Kommunikationseinheiten 244 Satellitensignale in einem globalen Navigationssatellitensystem (GNSS)-Netzwerk, wie z. B. dem globalen Positionsbestimmungssystem (GPS) übertragen und/oder empfangen. Beispiele der Kommunikationseinheit 244 können eine Netzwerkschnittstellenkarte (z. B. eine Ethernetkarte), einen optischen Sendeempfänger, einen Hochfrequenz-Sendeempfänger, einen GPS-Empfänger oder eine beliebige andere Art von Gerät beinhalten, das Informationen senden oder empfangen kann. Andere Beispiele von Kommunikationseinheiten 244 können Kurzwellenradios, Mobilfunkdatenradios, drahtlose Ethernet-Netzwerkradios (z. B. WLAN), sowie Universal Serial Bus (USB)-Schnittstellen, beinhalten.
Ein oder mehrere Speichergeräte 248 innerhalb von Computergerät 210 können Informationen zur Verarbeitung während des Betriebs des Computergeräts 210 speichern. In einigen Beispielen fungiert das Speichergerät 248 als ein temporärer Speicher, was bedeutet, dass Speichergerät 248 nicht zur Langzeitspeicherung verwendet wird. Die Speichergeräte 248 des Computergeräts 210 können zur Kurzzeitspeicherung von Informationen als flüchtige Speicher konfiguriert sein, weshalb, wenn diese ausgeschaltet werden, die gespeicherten Inhalte verloren gehen. Beispiele von flüchtigen Speichern beinhalten Arbeitsspeicher (RAM), dynamische Arbeitsspeicher (DRAM), statische Arbeitsspeicher (SRAM) und andere Formen von flüchtigen Speichern, die auf dem Fachgebiet bekannt sind.
Die Speichergeräte 248 beinhalten in einigen Beispielen zudem ein oder mehrere computerlesbare Speichermedien. Die Speichergeräte 248 können größere Mengen von Informationen als flüchtige Speicher speichern. Die Speichergeräte 248 können des Weiteren zur Langzeitspeicherung von Informationen als nicht flüchtiger Speicherplatz und zum Beibehalten von Informationen nach Stromeinschalt-/Ausschaltzyklen konfiguriert sein. Beispiele von nicht flüchtigen Speichern beinhalten magnetische Festplatten, optische Festplatten, Disketten, Flashspeicher oder Formen von elektrisch programmierbaren Speichern (EPROM) oder von elektrisch überschreibbaren und programmierbaren (EEPROM) Speichern. Die Speichergeräte 248 können Programmanweisungen und/oder Daten in Verbindung mit den Modulen 220, 222, 224, 226 und 228 speichern.
Ein oder mehrere Prozessoren 240 können Funktionen implementieren und/oder Anweisungen innerhalb des Computergeräts 210 ausführen. Die Prozessoren 240 von Computergerät 210 können zum Beispiel Anweisungen empfangen und ausführen, die durch die Speichergeräte 248 gespeichert wurden, die die Funktionalität von Nachrichtenverwaltungsmodul 220, Anwendungsmodulen 222, Spracherkennungsmodul 224, Sprachsynthesemodul 226 und CMM 228 ausführen. Diese durch die Prozessoren 240 ausgeführten Anweisungen können Computergerät 210 dazu veranlassen, während der Programmausführung in den Speichergeräten 248 Informationen zu speichern. Die Prozessoren 240 können in Modulen 220, 222, 224, 226 und 228 Anweisungen ausführen, um eine Audioeingabe in Text umzuwandeln und basierend auf den Audioeingaben eine textbasierte Nachricht zu senden oder um eine textbasierte Nachricht in Sprache umzuwandeln und basierend auf der Textnachricht eine Audioausgabe auszugeben. Das bedeutet, dass Module 220, 222, 224, 226 und 228 durch die Prozessoren 240 betrieben werden können, um mehrere Aktionen, einschließlich Umwandeln empfangener Audiodaten und Senden der transkribierten Daten an ein Remote-Gerät sowie Umwandeln empfangener Textdaten in Audiodaten und Ausgeben der Audiodaten, durchzuführen.
Anwendungsmodule 222 können jedwede andere Anwendung beinhalten, die Computergerät 210 zusätzlich zu den anderen, spezifisch in dieser Offenbarung beschriebenen Modulen ausführen kann. Zum Beispiel können die Anwendungsmodule 222 Nachrichtenübermittlungsanwendungen (z. B. E-Mail, SMS, MMS, IM oder andere textbasierte Nachrichtenübermittlungsanwendungen), einen Webbrowser, einen Media-Player, ein Dateisystem, ein Kartenprogramm oder jedwede andere Anzahl von Anwendungen oder Merkmalen beinhalten, die Computergerät 210 beinhalten kann.
Gemäß den Techniken dieser Offenbarung kann Computergerät 210 eine Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Audionachricht zu hören, die eine empfangene textbasierte Nachricht angibt. Computergerät 210 kann eine textbasierte Nachricht über Kommunikationseinheit 244 empfangen. CMM 228 kann basierend auf einer Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht zu hören, bestimmen, ob es eine Audioangabe der Nachricht ausgibt.
CMM 228 kann basierend auf Kontextinformationen die Wahrscheinlichkeit bestimmen, dass ein Benutzer von Computergerät 110 beabsichtigt, eine Audioversion einer textbasierten Nachricht zu hören. Kontextinformationen können als nicht einschränkende Beispiele die Frequenz von eingehenden Nachrichten von einem bestimmten Nachrichtenübermittlungsgerät 115 (z. B. Nachrichtenübermittlungsgerät 115A), die Frequenz ausgehender Nachrichten an Nachrichtenübermittlungsgerät 115A, verstrichene Zeit seit der letzten von Nachrichtenübermittlungsgerät 115A empfangenen Nachricht, verstrichene Zeit seit der letzten an Nachrichtenübermittlungsgerät 115A gesendeten Nachricht beinhalten. Zum Beispiel kann der Benutzer von Computergerät 210 über eine vorbestimmte Zeitspanne häufig SMS-Nachrichten mit Nachrichtenübermittlungsgerät 115A austauschen. Aufgrund der Frequenz von SMS-Nachrichten zwischen dem Benutzer und Nachrichtenübermittlungsgerät 115A kann CMM 228 bestimmen, dass eine hohe Wahrscheinlichkeit besteht, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht zu hören. Der Benutzer von Computergerät 210 kann über eine vorbestimmte Zeitspanne sporadisch SMS-Nachrichten mit einem anderen der Nachrichtenübermittlungsgeräte 115 (z. B. Nachrichtenübermittlungsgerät 115N) austauschen. Basierend auf dem sporadischen Nachrichtenaustausch mit Nachrichtenübermittlungsgerät 115N kann CMM 228 bestimmen, dass eine niedrige Wahrscheinlichkeit besteht, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht von Nachrichtenübermittlungsgerät 115N zu hören.
Die zum Bestimmen der Wahrscheinlichkeit verwendeten Kontextinformationen können zudem eines oder mehrere der Folgenden: den Standort eines Benutzers, eine Tageszeit, Kalendereinträge eines Kalenders des Benutzers, die Information, ob eine Nachricht an einen Kontakt in der Kontaktliste des Benutzers gesendet (oder von diesem empfangen) wird oder ob der Benutzer kürzlich eine Telefonkonversation mit einem Benutzer eines bestimmten Nachrichtenübermittlungsgeräts 115 geführt hat, beinhalten. In einigen Beispielen können die Kontextinformationen außerdem eine oder mehrere Aktionen beinhalten, die vom Benutzer ausgeführt werden, wie z. B. ein Verwenden einer Anwendung (z. B. Verwenden eines Internetbrowsers, Abspielen von Musik, Verwenden von Navigationsprogrammen, Aufnehmen eines Fotos, usw.), Stummschalten von Computergerät 210, Senden oder Empfangen einer Sprachnachricht (z. B. eines Telefonanrufs oder eines Videochats), Senden oder Empfangen einer textbasierten Nachricht, Sprechen eines Befehls an Computergerät 210 oder jedwede andere Aktion, die angeben kann, ob ein Benutzer von Computergerät 220 beabsichtigt, eine Audioversion einer empfangenen textbasierten Nachricht zu hören.
CMM 228 kann basierend auf einer Art von Kontextinformation die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine empfangene Nachricht zu hören. Wenn der Benutzer zum Beispiel beginnt, Musik auf Computergerät 210 abzuspielen, kann CMM 228 bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu hören, niedrig ist. In einigen Beispielen kann CMM 228 basierend auf mehreren Arten von Kontextinformation die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Nachricht zu hören. Zum Beispiel kann CMM 228 basierend darauf, ob sich der Absender in der Kontaktliste des Benutzers befindet, und dass der Benutzer eine gewisse Anzahl von Nachrichten innerhalb einer gegebenen Zeitspanne mit diesem ausgetauscht hat, die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine empfangene Nachricht zu hören.
In einigen Beispielen kann CMM 228 Arten von Kontextinformation unabhängig voneinander betrachten. Zum Beispiel kann CMM 228, sofern CMM 228 basierend auf der Frequenz eingehender Nachrichten von Nachrichtenübermittlungsgerät 115 und basierend darauf, ob sich eine mit dem Nachrichtenübermittlungsgerät 115 assoziierte dritte Partei in der Kontaktliste des Benutzers befindet, die Wahrscheinlichkeit bestimmt, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht zu hören, eine höhere Wahrscheinlichkeit bestimmen, wenn die Frequenz der eingehenden Nachrichten einen Schwellenwert erreicht oder wenn die dritte Partei sich in der Kontaktliste des Benutzers befindet. CMM 228 kann jedoch in einigen Beispielen die Wahrscheinlichkeit mit einer Gewichtung bestimmen. Zum Beispiel kann CMM 228 eine hohe Wahrscheinlichkeit bestimmen, obwohl die Frequenz der Nachrichten niedrig ist, sich die dritte Partei, die Nachrichten sendet und/oder empfängt, jedoch in der Kontaktliste des Benutzers befindet. Im Gegensatz dazu kann CMM 228 trotz einer hohen Frequenz von Nachrichten eine niedrige Wahrscheinlichkeit bestimmen, wenn die dritte Partei, die Nachrichten sendet und/oder empfängt sich nicht in der Kontaktliste des Benutzers befmdet.
CMM 228 kann bestimmen, ob der Benutzer beabsichtigt, eine Audioversion einer empfangenen Nachricht zu hören, indem es die Wahrscheinlichkeit, dass ein Benutzer beabsichtigt, die Nachricht zu hören, mit einem Wahrscheinlichkeitsschwellenwert vergleicht. In einigen Beispielen kann CMM 228 die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht zu hören, mit verschiedenen Wahrscheinlichkeitsschwellenwerten vergleichen. Jeder der verschiedenen Wahrscheinlichkeitsschwellenwerte kann einem anderen Konversationsstatus entsprechen, und CMM 228 kann abhängig vom Konversationsstatus verschiedene Aktionen ausführen.
CMM 228 kann einen Konversationsstatus zwischen einem Benutzer von Computergerät 210 und Nachrichtenübermittlungsgerät 115 basierend auf der Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine textbasierte Nachricht zu hören. Zum Beispiel kann CMM 228 bestimmen, dass der Benutzer keine Konversation mit einem Benutzer von Nachrichtenübermittlungsgerät 115 führt, was nachfolgend als „Ruhezustand“ bezeichnet wird. In einigen Beispielen kann CMM 228 bestimmen, dass ein Benutzer in geringem Ausmaß eine Konversation mit einem Benutzer von Nachrichtenübermittlungsgerät 115 führt, was nachfolgend als „kurz zurückliegender Zustand“ bezeichnet wird. Des Weiteren kann CMM 228 in einigen Beispielen bestimmen, dass ein Benutzer eine intensive Konversation mit einem Benutzer von Nachrichtenübermittlungsgerät 115 führt, was nachfolgend als „aktiver Zustand“ bezeichnet wird.
In einigen Beispielen kann CMM 228 einen Konversationsstatus zwischen dem Benutzer von Computergerät 210 und einem bestimmten Nachrichtenübermittlungsgerät 115 auf individueller Grundlage bestimmen. Mit anderen Worten kann sich der Konversationsstatus zwischen dem Benutzer und einem ersten Nachrichtenübermittlungsgerät 115 vom Konversationsstatus zwischen dem Benutzer und einem zweiten Nachrichtenübermittlungsgerät 115 unterscheiden. Zum Beispiel kann CMM 228 bestimmen, dass sich eine Konversation zwischen dem Benutzer und einem bestimmten Nachrichtenübermittlungsgerät 115 in einem kurz zurückliegenden Zustand befindet, und dass sich eine Konversation zwischen dem Benutzer und einem anderen Nachrichtenübermittlungsgerät 115 in einem aktiven Zustand befmdet. In einigen Beispielen kann CMM 228 den Konversationsstatus zwischen dem Benutzer von Computergerät 210 und einer bestimmten Gruppe von Nachrichtenübermittlungsgeräten 115 auf Gruppenbasis bestimmen. Zum Beispiel kann Computergerät 210 den Konversationsstatus zwischen dem Benutzer von Computergerät 210 und einer Gruppe von Nachrichtenübermittlungsgeräten 115 (z. B. Kontakten, die an einer Gruppennachricht teilnehmen) bestimmen, sodass der Konversationsstatus derselbe für alle Gruppenmitglieder ist. In einigen Beispielen kann das Konversationsverwaltungsmodul einen Konversationsstatus zwischen dem Benutzer von Computergerät 210 und allen Kontakten auf globaler Basis bestimmen. Zum Beispiel kann CMM 228 bestimmen, dass der Konversationsstatus ein Ruhezustand für alle Konversationen ist (z. B. kann der Benutzer das Computergerät 210 in einen „Bitte nicht stören-Modus“ versetzen).
CMM 228 kann bestimmen, dass sich der Konversationsstatus in einem aktiven Zustand befindet, wenn die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Audioversion einer empfangenen Nachricht zu hören, einen ersten Wahrscheinlichkeitsschwellenwert und einen zweiten Wahrscheinlichkeitsschwellenwert erreicht (z. B. die Wahrscheinlichkeit höher als sowohl der erste Wahrscheinlichkeitsschwellenwert und der zweite Wahrscheinlichkeitsschwellenwert ist). Wenn CMM 228 bestimmt, dass sich die Konversation in einem aktiven Zustand befindet, ist es möglich, dass der Benutzer keine Befehle geben muss, um eine Nachricht zu senden oder zu hören. Zum Beispiel kann der Benutzer in einem aktiven Zustand eine Nachricht von einem bestimmten Nachrichtenübermittlungsgerät 115 empfangen, und Computergerät 210 kann Sprachsyntheseverarbeitung an der empfangenen Nachricht durchführen, ohne eine Anfrage nach Anweisungen an den Benutzer auszugeben. Sprachsynthese (TTS)-Modul 226 kann die Nachricht in Audiodaten umwandeln, woraufhin Computergerät 210 die Audiodaten über Lautsprecher 247 ausgeben kann.
CMM 228 kann bestimmen, dass sich der Konversationsstatus in einem kurz zurückliegenden Zustand befindet, wenn die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Audioversion einer empfangenen Nachricht zu hören, einen ersten Wahrscheinlichkeitsschwellenwert nicht erreicht, jedoch einen zweiten Wahrscheinlichkeitsschwellenwert erreicht (z. B. die Wahrscheinlichkeit zwischen einem ersten Wahrscheinlichkeitsschwellenwert und einem zweiten Wahrscheinlichkeitsschwellenwert liegt). Wenn sich der Konversationsstatus in einem kurz zurückliegenden Zustand befindet, ist es möglich, dass lediglich vom Benutzer verlangt wird, geringfügige Befehle zu erteilen, um eine Nachricht zu senden oder zu hören. In einigen Beispielen kann TTS-Modul 226 in einem kurz zurückliegenden Zustand Sprachsyntheseverarbeitung an der Nachricht durchführen, um die Audiodaten in Textdaten umzuwandeln. Computergerät 210 kann die Audiodaten mit einem geringen Nachrichtenkontext, wie z. B. dem Namen des Absenders, ausgeben. Wenn Computergerät 210 zum Beispiel eine SMS empfängt, kann TTS-Modul 226 die textbasierte Nachricht in eine Audioausgabe umwandeln, sodass das Computergerät den Nachrichtenkontext „Jimmy sagte“ und die Audiodaten „Hey. Kollege, wohin gehst du heute Abend?“ ausgibt.
CMM 228 kann bestimmen, dass sich der Konversationsstatus in einem Ruhezustand befindet, wenn die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Audioversion einer empfangenen Nachricht zu hören, weder einen noch den anderen Wahrscheinlichkeitsschwellenwert erreicht (z. B. die Wahrscheinlichkeit geringer als sowohl der erste Wahrscheinlichkeitsschwellenwert als auch der zweite Wahrscheinlichkeitsschwellenwert ist). Wenn CMM 228 bestimmt, dass der Konversationsstatus ein Ruhezustand ist, ist es möglich, dass vom Benutzer verlangt wird, eine Aktion auszuführen, um eine Nachricht zu senden oder eine empfangene Nachricht zu hören. Computergerät 210 kann eine Anfrage nach zusätzlichen Anweisungen vom Benutzer ausgeben. Zum Beispiel kann Computergerät 210 in einem Ruhezustand eine textbasierte Nachricht von einem bestimmten Nachrichtenübermittlungsgerät 115 empfangen und kann Audiodaten ausgeben, die anfragen, ob der Benutzer die Nachricht hören möchte. Zum Beispiel kann Computergerät 210 die Audionachricht ausgeben: „Nachricht von Jimmy empfangen. Möchten Sie die Nachricht hören?“
CMM 228 kann den Konversationsstatus basierend auf der Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine empfangene textbasierte Nachricht zu hören. In einigen Beispielen kann CMM 228 den Konversationszustand basierend auf der Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Nachricht zu senden.
In einigen Beispielen kann ein Benutzer von Computergerät 210 eine Nachricht sprechen. Computergerät 210 kann die Audioeingabe vom Benutzer über Mikrofon 243 empfangen. CMM 228 kann eine Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine textbasierte Nachricht an ein bestimmtes Nachrichtenübermittlungsgerät 115 zu senden. Die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu senden, kann auf Kontextinformationen basieren, wie z. B. den Kontextinformationen, die verwendet werden um zu bestimmen, ob der Benutzer beabsichtigt, eine Audioversion einer empfangenen textbasierten Nachricht zu hören. Als zusätzliches Beispiel können Kontextinformationen die positive Konnotation oder Stärke eines durch den Benutzer gegebenen Befehls an Computergerät 210 beinhalten. Zum Beispiel kann ein Befehl: „Jimmy anschreiben“ weniger positiv konnotiert sein, als ein Befehl: ..mit Jimmy sprechen“, sodass der erste Befehl möglicherweise eine niedrigere Wahrscheinlichkeit als der zweite Befehl angeben kann.
CMM 228 kann bestimmen, ob der Benutzer beabsichtigt, eine Nachricht zu senden, indem es die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu senden, mit einem Wahrscheinlichkeitsschwellenwert vergleicht. In einigen Beispielen kann CMM 228 die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht zu senden, mit verschiedenen Wahrscheinlichkeitsschwellenwerten vergleichen. Jeder der verschiedenen Wahrscheinlichkeitsschwellenwerte kann einem anderen Konversationsstatus entsprechen, und CMM kann abhängig vom Konversationsstatus verschiedene Aktionen ausführen.
In einigen Beispielen kann CMM 228 bestimmen, dass sich die Konversation in einem aktiven Zustand befindet. In einem aktiven Zustand kann der Benutzer eine Nachricht senden, indem er die Nachricht, die der Benutzer senden möchte, ohne jedweden Befehl, wie z. B. „sag“, „schreibe“, „sende“ oder andere Befehle, laut ausspricht. Zum Beispiel kann der Benutzer „Ich bin in fünf Minuten da“ sagen, ohne spezifisch anzugeben: „Sende eine Nachricht an Jimmy“. Computergerät 210 kann Audiodaten von einem Benutzer empfangen. Spracherkennungsmodul 224 kann Spracherkennungs- (STT)-Verarbeitung an den Audiodaten durchführen und die Audiodaten in Textdaten umwandeln. CMM 228 kann basierend auf den Textdaten eine textbasierte Nachricht erzeugen, woraufhin Computergerät 210 die Nachricht automatisch an ein bestimmten Nachrichtenübermittlungsgerät 115 (z. B. ein mit Jimmy assoziiertes Nachrichtenübermittlungsgerät 115) senden kann.
Wenn CMM 228 bestimmt, dass sich der Konversationsstatus in einem kurz zurückliegenden Zustand befindet, kann der Benutzer in der Lage sein, mit minimalen Befehlen eine Nachricht an ein bestimmtes Nachrichtenübermittlungsgerät 115 zu senden. Zum Beispiel kann der Benutzer eine Nachricht sprechen, die einen Nachrichtenbefehl (z. B. „sag“, „schreibe“, „sende“) und den Nachrichteninhalt („Ich bin in fünf Minuten da.“) beinhaltet. Computergerät 210 kann den Nachrichtenbefehl und den Nachrichteninhalt über Mikrofon 243 empfangen. STT-Modul 224 kann die Audioeingabe in Textdaten umwandeln. CMM 228 kann basierend auf den Textdaten eine textbasierte Nachricht so erzeugen, dass Kommunikationsmodul 244 ggf. eine textbasierte Nachricht (wobei die Nachricht „Ich bin in fünf Minuten da.“ lautet) sendet, ohne dass der Benutzer den Inhalt der Nachricht oder die Absicht des Benutzers, die Nachricht zu senden, bestätigen muss.
In einigen Beispielen kann CMM 228 bestimmen, dass sich die Konversation in einem Ruhezustand befindet. Wenn Computergerät 210 eine Audioeingabe von einem Benutzer empfängt, wenn sich eine Konversation in einem Ruhezustand befmdet, kann Computergerät 210 eine Anfrage nach zusätzlichen Informationen vom Benutzer ausgeben. Zum Beispiel kann Computergerät 210 in einem Ruhezustand eine Nachricht ausgeben, die den Benutzer auffordert, zu bestätigen, ob der Benutzer eine Nachricht senden möchte. Computergerät 210 kann eine Audioeingabe empfangen, die die Absicht des Benutzers, eine Nachricht zu senden, bestätigt und kann eine Audioeingabe empfangen, die eine zu sendende Nachricht angibt. STT-Modul 224 kann Spracherkennungsverarbeitung an der Audioeingabe durchführen und die Audiodaten in Textdaten umwandeln. CMM 228 kann basierend auf den Textdaten eine textbasierte Nachricht erzeugen, woraufhin Computergerät 210 die Nachricht an ein bestimmtes Nachrichtenübermittlungsgerät 115 senden kann.
Computergerät 210 kann dem Benutzer einen visuellen oder akustischen Hinweis auf den Konversationsstatus bereitstellen. Zum Beispiel kann Computergerät 210 den Benutzer über Klangsignale (z. B. eine Reihe von Pieptönen oder Sprachsynthese-Benachrichtigungen) auf den Konversationsstatus hinweisen. In einigen Beispielen kann Computergerät 210 den Benutzer über eine visuelle Benachrichtigung (z. B. ein auf Bildschirm 114 angezeigtes Statussymbol) auf den Konversationsstatus hinweisen.
CMM 228 kann für eingehende Nachrichten im Vergleich zu ausgehenden Nachrichten verschiedene Konversationsstatus bestimmen. Zum Beispiel kann CMM 228 eine hohe Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, empfangene Nachrichten von einem bestimmten Nachrichtenübermittlungsgerät 115 zu hören. CMM 228 kann jedoch bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu senden, geringer ist als die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine empfangene Nachricht zu hören. Infolgedessen kann Computergerät 210 in einigen Beispielen automatisch eine Audioversion einer empfangenen Nachricht ausgeben, kann jedoch eine Anfrage nach zusätzlichen Anweisungen vom Benutzer ausgeben, bevor es eine ausgehende Nachricht sendet.
FIGs. 3A-3H zeigen konzeptuelle Diagramme, die einen exemplarischen Betrieb von Computergerät 210 veranschaulichen. Computergerät 210 kann eine textbasierte Nachricht von einer Herkunftsquelle empfangen. CMM 228 kann eine Wahrscheinlichkeit bestimmen, dass der Benutzer von Computergerät 210 beabsichtigt, die empfangene Nachricht zu hören. CMM 228 kann die Wahrscheinlichkeit basierend auf einer oder mehreren Arten von Kontextinformationen bestimmen. Wenn die Kontextinformationen zum Beispiel die Frequenz eingehender Nachrichten von der Herkunftsquelle beinhaltet und die Frequenz von eingehenden Nachrichten niedrig ist, kann CMM 228 bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt zu hören, einen Wahrscheinlichkeitsschwellenwert nicht erreicht. Infolgedessen kann CMM 228 bestimmen, dass sich die Konversation in einem Ruhezustand befindet. Computergerät 210 kann eine Nachricht ausgeben, um den Benutzer über die eingehende Nachricht zu benachrichtigen (3A). Computergerät 210 kann zum Beispiel eine Nachricht ausgeben, die anfragt, ob der Benutzer die Nachricht hören möchte. In einigen Beispielen bestätigt der Benutzer seine Absicht, die Nachricht zu hören, indem er „ja“, „Nachricht lesen“, „ok“ sagt oder eine beliebige andere Antwort gibt, die angibt, dass der Benutzer die Nachricht hören möchte.
Computergerät 210 kann Audiodaten vom Benutzer über Mikrofon 243 empfangen, die angeben, dass der Benutzer den Inhalt der Nachricht hören möchte. TTS-Modul 226 kann Sprachsyntheseverarbeitung an der empfangenen textbasierten Nachricht durchführen und die Textdaten in Audiodaten umwandeln. In Reaktion auf ein Empfangen eines Befehls vom Benutzer kann Computergerät 210 die Audiodaten ausgeben, die den Inhalt der textbasierten Nachricht angeben (3B). Da CMM 228 bestimmt hat, dass sich der Konversationsstatus in einem Ruhezustand befindet, kann Computergerät 210 Nachrichtenkontext, wie z. B. den Namen des Kontakts, der die Nachricht gesendet hat, ausgeben. Beispielsweise kann Computergerät 210 den Nachrichtenkontext (z. B. „Jimmy sagte“) gefolgt von den Audiodaten (z. B. „Hey Kollege! Wo gehst du heute Abend hin?“) ausgeben. In einigen Beispielen kann Computergerät 210 nach dem Ausgeben der Audiodaten eine Anfrage nach zusätzlichen Befehlen vom Benutzer ausgeben.
In einigen Beispielen kann der Benutzer Computergerät 210 befehlen, einen Antwortnachricht an die Herkunftsquelle zu senden. Zum Beispiel kann der Benutzer antworten, „sag Jimmy“ oder beliebige andere Wörter sagen, die angeben, dass der Benutzer eine Antwortnachricht an die Herkunftsquelle senden möchte. Mikrofon 243 von Computergerät 210 kann die durch den Benutzer gesprochene Audioeingabe empfangen. CMM 228 kann die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden. In einigen Beispielen, wenn Computergerät 210 nur eine textbasierte Nachricht von der Herkunftsquelle empfangen hat und der Benutzer einen Befehl gibt, auf die Nachricht zu antworten, kann CMM 228 bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht zu senden, einen Wahrscheinlichkeitsschwellenwert nicht erreicht und dass sich die Konversation immer noch in einem Ruhezustand befindet. Infolgedessen kann Computergerät 210 eine Anfrage nach einer Antwortnachricht ausgeben (3C). Computergerät 210 kann die Antwortnachricht über Mikrofon 243 als Audioeingabe empfangen. STT-Modul 224 kann Spracherkennungsverarbeitung an der Audioeingabe durchführen und die Audiodaten in Textdaten umwandeln. Da sich der Konversationsstatus immer noch in einem Ruhezustand befmdet, kann Computergerät 210 eine Anfrage an den Benutzer ausgeben, zu bestätigen, ob die Antwortnachricht gesendet werden soll (3D). In einigen Beispielen kann Computergerät 210 die Antwortnachricht an die Herkunftsquelle senden und eine Nachricht ausgeben, um dem Benutzer zu bestätigen, dass die Antwortnachricht gesendet wurde ( 3E).
Wie in 3F gezeigt, kann die Herkunftsquelle dem Benutzer eine zweite textbasierte Nachricht senden. CMM 228 kann basierend auf Kontextinformationen (z. B. einer Zunahme in der Nachrichtenfrequenz zwischen dem Benutzer und der Herkunftsquelle) bestimmen, dass sich die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die empfangene Nachricht zu hören, erhöht hat. CMM 228 kann bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht zu hören, einen ersten Wahrscheinlichkeitsschwellenwert erreicht, jedoch einen zweiten Wahrscheinlichkeitsschwellenwert nicht erreicht (z. B. die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht zu hören, zwischen einem ersten Wahrscheinlichkeitsschwellenwert und einem zweiten Wahrscheinlichkeitsschwellenwert liegt). Infolgedessen kann CMM 228 bestimmen, dass sich der Konversationsstatus zwischen dem Benutzer und der Herkunftsquelle in einem kurz zurückliegenden Zustand befindet. In einem kurz zurückliegenden Zustand kann TTS-Modul 226 Sprachsyntheseverarbeitung an der empfangenen Nachricht durchführen und die Textdaten in Audiodaten umwandeln. Computergerät 210 kann die Textdaten automatisch ausgeben. Beispielsweise kann Computergerät 210 den Nachrichtenkontext (z. B. „Jimmy sagte“) gefolgt von den Audiodaten (z. B. „Bringst du Snacks mit?“) ausgeben.
In einigen Beispielen kann der Benutzer auf die Nachricht von der Herkunftsquelle antworten, indem er eine Antwortnachricht spricht. Computergerät 210 kann die der Antwortnachricht des Benutzers entsprechenden Audiodaten über Mikrofon 243 empfangen. Zum Beispiel kann der Benutzer sagen: „Sag Jimmy, ich bringe Kekse mit“. CMM 228 kann bestimmen, dass die Antwort einen Befehl, eine Nachricht zu senden (z. B. „Sag Jimmy Bescheid“), beinhaltet. CMM 228 kann bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu senden, einen ersten Wahrscheinlichkeitsschwellenwert erreicht, weil die Nachricht einen Befehl beinhaltet, jedoch einen zweiten Wahrscheinlichkeitsschwellenwert nicht erreicht. Infolgedessen kann CMM 228 bestimmen, dass sich die Konversation zwischen dem Benutzer und der Herkunftsquelle in einem kurz zurückliegenden Zustand befindet. STT-Modul 226 kann Spracherkennungsverarbeitung an den empfangenen Audiodaten durchführen und die Audiodaten in Textdaten umwandeln. CMM 228 kann basierend auf den Textdaten eine textbasierte Antwortnachricht erzeugen, woraufhin Computergerät 210 die textbasierte Antwortnachricht an die Herkunftsquelle senden kann.
Computergerät 210 kann eine dritte eingehende Nachricht von der Herkunftsquelle empfangen, und CMM 228 kann die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, die empfangene Nachricht zu hören. Zum Beispiel kann CMM 228 basierend auf der Frequenz ausgetauschter Nachrichten zwischen dem Benutzer und der Herkunftsquelle bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht zu hören, einen Wahrscheinlichkeitsschwellenwert erreicht, sodass sich die Konversation in einem aktiven Zustand befindet. TTS-Modul 226 kann die Textdaten in Audiodaten umwandeln. Computergerät 210 kann die Audiodaten (z. B. „Super, wir sehen uns gleich!“) automatisch ausgeben (3H).
Für nachfolgende Nachrichten zwischen dem Benutzer und der Herkunftsquelle kann CMM 228 die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Nachricht zu senden oder eine empfangene Nachricht zu hören. Wenn CMM 228 bestimmt, dass sich der Konversationsstatus verändert hat, kann Computergerät 210 Eingabeaufforderungen und Nachrichtenkontext gemäß den jeweiligen Konversationsstatus, wie oben beschrieben, ausgeben.
In einigen Beispielen kann ein Benutzer eine textbasierte Konversation mit einem bestimmten Nachrichtenübermittlungsgerät 115 initiieren. Der Benutzer kann die Konversation mit einer physischen Eingabe an Computergerät 210 (z. B. durch Drücken auf die präsenzempfindliche Anzeige 5) initiieren oder durch Sprechen eines Sprachbefehls. Computergerät 210 kann den Sprachbefehl in Form einer Audioeingabe über Mikrofon 243 empfangen. CMM 228 kann basierend auf dem Sprachbefehl und anderen Kontextinformationen die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine textbasierte Nachricht zu senden. Zum Beispiel kann der Benutzer sagen: „Jimmy schreiben“, sodass CMM 228 die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, dem Empfänger (z. B. Jimmy) eine Nachricht zu senden, und einen entsprechenden Konversationsstatus bestimmen kann. Die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu senden, und der entsprechende Konversationsstatus können von der positiven Konnotation des ursprünglichen Befehls abhängen. Wenn der Benutzer zum Beispiel sagt: „Jimmy schreiben“, kann CMM 228 eine Wahrscheinlichkeit bestimmen, wenn der Benutzer jedoch sagt „Mit Jimmy sprechen“, kann CMM 228 eine andere Wahrscheinlichkeit bestimmen. CMM 228 kann bestimmen, dass die Wahrscheinlichkeit, dass ein Benutzer beabsichtigt, eine Nachricht an den Empfänger zu senden, wenn der Benutzer „Jimmy schreiben“ sagt, höher als ein erster Wahrscheinlichkeitsschwellenwert, jedoch niedriger als ein zweiter Wahrscheinlichkeitsschwellenwert ist. CMM 228 kann jedoch bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an den Empfänger zu senden, höher als sowohl der erste Wahrscheinlichkeitsschwellenwert und der zweite Wahrscheinlichkeitsschwellenwert ist, wenn der Benutzer sagt: „mit Jimmy sprechen“. Infolgedessen kann CMM 228 abhängig von der positiven Konnotation des empfangenen Befehls verschiedene Konversationsstatus bestimmen.
In einigen Beispielen kann CMM 228 basierend auf expliziten Aktionen oder Befehlen durch den Benutzer bestimmen, dass eine Konversation beendet ist (z. B. ist die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu hören, sehr niedrig). Zum Beispiel kann der Benutzer einen Knopf an Computergerät 210 (z. B. auf der präsenzempfindlichen Anzeige 5) drücken, um die Konversation zu beenden. In einigen Beispielen kann CMM 228 basierend auf mehr als einer Art von Kontextinformation, wie z. B. dem Inhalt einer Nachricht, bestimmen, dass eine Konversation beendet ist. Zum Beispiel kann der Benutzer „Tschüss“ oder „Konversation beenden“ sagen. Wenn CMM 228 bestimmt, dass die Konversation beendet ist, kann Computergerät 210 einen kompletten Satz von Befehlen und Bestätigungen vom Benutzer verlangen, um zusätzliche Nachrichten zu senden oder empfangene Nachrichten zu hören.
In einigen Beispielen kann CMM 228 bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht zu senden oder eine Nachricht zu hören von niedrig (d. h. der Konversationsstatus ein Ruhezustand ist) zu hoch (d. h. der Konversationsstatus ein aktiver Zustand ist) übergegangen ist oder umgekehrt, ohne einen Zwischenbereich zu durchlaufen. Anders gesagt, kann der Konversationsstatus den kurz zurückliegenden Zustand überspringen, wenn die Wahrscheinlichkeit plötzlich stark steigt oder sinkt.
CMM 228 kann einen temporären oder vorübergehenden Konversationsstatus bestimmen. Zum Beispiel kann der Benutzer eine kurze Konversation mit einem bestimmten Nachrichtenübermittlungsgerät 115 initiieren (d. h. die Konversation befindet sich temporär in einem aktiven Zustand), indem er für eine bestimmten Zeitspanne auf die mit dem Nachrichtenübermittlungsgerät 115 assoziierten Kontaktinformationen drückt oder indem er die mit dem Nachrichtenübermittlungsgerät assoziierten Kontaktinformationen auf Bildschirm 114 darstellen lässt. In einigen Beispielen kann CMM 228 bestimmen, dass die Konversation für eine bestimmte Zeitspanne im temporären Zustand verbleibt oder so lange, wie die Kontaktinformationen angezeigt werden.
In einigen Beispielen kann ein Benutzer mehrere Konversationen mit verschiedenen Nachrichtenübermittlungsgeräten 115 führen. Zum Beispiel kann Computergerät 210 eine Nachricht von einem ersten Nachrichtenübermittlungsgerät 115 und eine Nachricht von einem zweiten Nachrichtenübermittlungsgerät 115 empfangen. In Reaktion auf ein Empfangen von Audiodaten vom Benutzer kann CMM 228 die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an ein erstes Nachrichtenübermittlungsgerät 115 zu senden, und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an ein zweites Nachrichtenübermittlungsgerät 115 zu senden, bestimmen. In einigen Beispielen kann CMM 228 den Inhalt der Audiodaten analysieren und bestimmen, ob der Inhalt der Audiodaten für die Konversation mit dem ersten Nachrichtenübermittlungsgerät oder die mit dem zweiten Nachrichtenübermittlungsgerät relevanter ist.
CMM 228 kann bestimmen, welches Nachrichtenübermittlungsgerät 115 die Nachricht empfangen soll, indem es die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, mit der Wahrscheinlichkeit vergleicht, dass der Benutzer beabsichtigt, eine Nachricht an ein zweites Nachrichtenübermittlungsgerät 115 zu senden, und bestimmt, welche Wahrscheinlichkeit höher ist. Wenn die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, höher ist als die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, kann CMM 228 bestimmen, dass der Benutzer beabsichtigt, die Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden.
In einigen Beispielen kann CMM 228 bestimmen, welches Nachrichtenübermittlungsgerät 115 die Nachricht erhalten soll, indem es die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, mit der Wahrscheinlichkeit vergleicht, dass der Benutzer beabsichtigt, eine Nachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, und jede der Wahrscheinlichkeiten mit einem Wahrscheinlichkeitsschwellenwert vergleicht. Wenn zum Beispiel die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, kann CMM 228 bestimmen, dass der Benutzer beabsichtigt, die Nachricht an das mit der höheren Wahrscheinlichkeit assoziierte Nachrichtenübermittlungsgerät 115 zu senden.
In einigen Beispielen kann CMM 228 die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, mit einem Wahrscheinlichkeitsschwellenwert vergleichen und kann die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, mit dem Wahrscheinlichkeitsschwellenwert vergleichen. Wenn CMM 228 zum Beispiel bestimmt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht und dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, kann CMM 228 bestimmen, dass Computergerät 210 die Nachricht sowohl an das erste als auch das zweite Nachrichtenübermittlungsgerät 115 senden sollte. Wenn jedoch die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, kann Computergerät 210 eine Anfrage an den Benutzer ausgeben zu bestätigen, welches Nachrichtenübermittlungsgerät 115 die ausgehende Nachricht empfangen soll.
Wenn die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht an das erste Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert nicht erreicht, kann CMM 228 in einigen Beispielen eine Anfrage an den Benutzer ausgeben, zu bestätigen, ob eine Nachricht gesendet werden soll. CMM 228 kann zudem eine Anfrage an den Benutzer ausgeben, zu bestätigen, welches Nachrichtenübermittlungsgerät 115 die Nachricht empfangen soll.
In einigen Beispielen kann sich der Wahrscheinlichkeitsschwellenwert zum Senden einer Nachricht verändern, wenn der Benutzer mehrere Konversationen führt. Zum Beispiel kann der Wahrscheinlichkeitsschwellenwert zum Senden einer Nachricht im aktiven Zustand ein erster Wahrscheinlichkeitsschwellenwert sein, wenn der Benutzer nur eine Konversation führt. Der Wahrscheinlichkeitsschwellenwert zum Senden einer Nachricht im aktiven Zustand kann jedoch auf einen zweiten Wahrscheinlichkeitsschwellenwert ansteigen, wenn der Benutzer mehr als eine Konversation führt (d. h. wenn es zumindest eine andere Konversation gibt, die sich nicht in einem Ruhezustand befindet).
4 zeigt ein Ablaufdiagramm, das einen exemplarischen Betrieb von Computergerät 210 veranschaulicht. In einigen Beispielen kann Computergerät 210 eine textbasierte Nachricht von einer Herkunftsquelle empfangen (400). Die textbasierte Nachricht kann eine E-Mail, Sofortnachricht, SMS oder eine andere Art von textbasierter Nachricht beinhalten. CMM 228 kann die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht zu hören, und kann die Wahrscheinlichkeit mit einem Wahrscheinlichkeitsschwellenwert vergleichen. In einigen Beispielen kann TTS-Modul 226 Sprachsyntheseverarbeitung an der empfangenen Nachricht durchführen und die Textdaten in Audiodaten umwandeln. Computergerät 210 kann die Audiodaten ausgeben.
Computergerät 210 kann eine Audioeingabe empfangen (410). Beispielsweise kann der Benutzer eine Nachricht sprechen, die durch Mikrofon 243 von Computergerät 210 empfangen wird. CMM 228 kann die Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden (420). Die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden, kann auf expliziten Befehlen oder Kontextinformationen basieren. Beispielsweise können Kontextinformationen die Frequenz von Nachrichten bestimmen, die an die Herkunftsquelle gesendet werden und durch diese empfangen werden. CMM 228 kann bestimmen, ob die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht. CMM 228 kann einen Konversationsstatus (z. B. Ruhezustand, kurz zurückliegender Zustand oder aktiver Zustand) bestimmen, indem es die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht zu senden, mit einem ersten Wahrscheinlichkeitsschwellenwert und einem zweiten Wahrscheinlichkeitsschwellenwert vergleicht.
In Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, kann Computergerät 210 basierend auf der Audioeingabe die Antwortnachricht erzeugen (430). Computergerät 210 kann zum Beispiel Spracherkennungsverarbeitung an der Audioeingabe durchführen und die Audiodaten in Textdaten umwandeln. CMM 228 kann basierend auf den Textdaten eine textbasierte Antwortnachricht erzeugen. Computergerät 210 kann die Antwortnachricht an die Herkunftsquelle senden (440).
In einigen Beispielen kann ein Verfahren ein Ausgeben eines Audiosignals durch ein mit einem Benutzer assoziiertes Computergerät beinhalten, das eine Textnachricht von einer Herkunftsquelle repräsentiert. Das Verfahren kann ein Empfangen von Audiodaten durch das Computergerät beinhalten, die eine Sprachäußerung vom Benutzer repräsentieren. Das Verfahren kann zudem ein Bestimmen durch das Computergerät, ohne zusätzliche Eingaben (z. B. akustische oder gestenbasierte Eingaben) vom Benutzer, einer Wahrscheinlichkeit beinhalten, dass der Benutzer beabsichtigt, eine Antwort zu senden, zumindest teilweise basierend auf den Audiodaten und einem oder mehreren aus der Frequenz eingehender Nachrichten von der Herkunftsquelle, der Frequenz ausgehender Nachrichten an die Herkunftsquelle, der verstrichenen Zeit seit der letzten von der Herkunftsquelle empfangenen Nachricht oder der verstrichenen Zeit seit der letzten an die Herkunftsquelle gesendeten Nachricht. Das Verfahren kann des Weiteren ein Übertragen, in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit einen Wahrscheinlichkeitsschwellenwert erreicht und ohne zusätzliche Eingaben (z. B. akustische oder gestenbasierte Eingaben) vom Benutzer, einer Transkription zumindest eines Teils der Audiodaten an die Herkunftsquelle beinhalten.
5 zeigt ein Ablaufdiagramm, das einen exemplarischen Betrieb von Computergerät 210 veranschaulicht. In einigen Beispielen kann ein Benutzer mehrere Konversationen mit verschiedenen Entstehungsquellen führen. Computergerät 210 kann zum Beispiel eine textbasierte Nachricht von einer ersten Herkunftsquelle (d. h. einem ersten Nachrichtenübermittlungsgerät 115) empfangen (500). Das Computergerät kann eine textbasierte Nachricht von einer zweiten Herkunftsquelle (d. h. einem Nachrichtenübermittlungsgerät 115) empfangen (510). Die textbasierte Nachricht von der ersten Herkunftsquelle und die textbasierte Nachricht von der zweiten Herkunftsquelle können verschiedene Arten von Nachrichten beinhalten. Die textbasierte Nachricht von der ersten Herkunftsquelle kann zum Beispiel eine SMS-Nachricht beinhalten, und die textbasierte Nachricht von der zweiten Herkunftsquelle kann eine Sofortnachricht beinhalten. CMM 228 kann eine Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht von der ersten Herkunftsquelle zu hören. CMM 228 kann die Wahrscheinlichkeit, dass ein Benutzer beabsichtigt, die Audioversion der Nachricht zu hören, mit einem Wahrscheinlichkeitsschwellenwert vergleichen. In Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht zu hören, einen Wahrscheinlichkeitsschwellenwert erreicht, kann TTS-Modul 226 die Textdaten in Audiodaten umwandeln, woraufhin Computergerät 210 die Audiodaten ausgeben kann. Ebenso kann Computergerät 210 eine Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Audioversion der Nachricht von der zweiten Herkunftsquelle zu hören, und die Wahrscheinlichkeit mit einem Wahrscheinlichkeitsschwellenwert vergleichen. In Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit einen Wahrscheinlichkeitsschwellenwert erreicht, kann Computergerät 210 die Textdaten in Audiodaten umwandeln und die Audiodaten ausgeben.
Computergerät 210 kann eine Audioeingabe empfangen (510). Nachdem Computergerät 210 zum Beispiel die Nachricht von der ersten Herkunftsquelle und die Nachricht von der zweiten Herkunftsquelle empfängt, kann der Benutzer eine Nachricht sprechen. Das Computergerät kann die Nachricht vom Benutzer über Mikrofon 243 als Audioeingabe empfangen.
CMM 228 kann eine Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Antwortnachricht an die erste Herkunftsquelle zu senden (530). Die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht an die erste Herkunftsquelle zu senden, kann auf einem expliziten Befehl und/oder Kontextinformationen basieren. Ein expliziter Befehl kann eine Aussage, wie z. B. „Sag Aaron“, beinhalten. Kontextinformationen können die Frequenz der zwischen Computergerät 210 und der ersten Herkunftsquelle ausgetauschten Nachrichten, die verstrichene Zeit seit der letzten zwischen Computergerät 210 und der ersten Herkunftsquelle ausgetauschten Nachricht oder eine andere Art von Kontextinformation beinhalten.
CMM 228 kann eine Wahrscheinlichkeit bestimmen, dass der Benutzer beabsichtigt, eine Antwortnachricht an die zweite Herkunftsquelle zu senden (540). Die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht an die zweite Herkunftsquelle zu senden, kann auf einem expliziten Befehl und/oder Kontextinformationen basieren. Ein expliziter Befehl kann eine Aussage, wie z. B. „Sag Jimmy“, beinhalten. Kontextinformationen können die Frequenz von zwischen Computergerät 210 und der zweiten Herkunftsquelle ausgetauschten Nachrichten, die verstrichene Zeit seit der letzten zwischen Computergerät 210 und der zweiten Herkunftsquelle ausgetauschten Nachricht oder eine andere Art von Kontextinformation beinhalten.
CMM 228 kann bestimmen, ob der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle, die zweite Herkunftsquelle, sowohl die erste als auch die zweite Herkunftsquelle oder keine der Entstehungsquellen zu senden (550). In einigen Beispielen kann CMM 228 die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an die erste Herkunftsquelle zu senden, mit der Wahrscheinlichkeit vergleichen, dass der Benutzer beabsichtigt, eine Nachricht an die zweite Herkunftsquelle zu senden, bestimmen, welche Wahrscheinlichkeit höher ist, und Computergerät 210 veranlassen, die Antwortnachricht an die Herkunftsquelle mit der höheren Wahrscheinlichkeit zu senden.
In einigen Beispielen kann CMM 228 die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, mit einem Wahrscheinlichkeitsschwellenwert vergleichen und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, mit dem Wahrscheinlichkeitsschwellenwert vergleichen. Wenn CMM 228 zum Beispiel bestimmt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, und dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, kann CMM 228 bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht sowohl an die erste als auch die zweite Herkunftsquelle zu senden. Wenn die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an eine erste Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an die zweite Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, kann Computergerät 210 eine Anfrage an den Benutzer ausgeben, zu bestätigen, welche Herkunftsquelle die Antwortnachricht empfangen soll. Wenn die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert nicht erreicht, und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an das zweite Nachrichtenübermittlungsgerät 115 zu senden, einen Wahrscheinlichkeitsschwellenwert nicht erreicht, kann Computergerät 210 in einigen Beispielen eine Anfrage an den Benutzer ausgeben, zu bestätigen, ob eine Nachricht gesendet werden soll. Computergerät 210 kann zudem eine Anfrage an den Benutzer ausgeben, zu bestätigen, welche Herkunftsquelle die Nachricht empfangen soll.
In einigen Beispielen kann CMM 228 bestimmen, ob der Benutzer beabsichtigt, die Antwortnachricht an die erste oder die zweite Herkunftsquelle zu senden, indem es die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Nachricht an die erste Herkunftsquelle zu senden, mit der Wahrscheinlichkeit vergleicht, dass der Benutzer beabsichtigt, eine Nachricht an die zweite Herkunftsquelle zu senden, und die jeweiligen Wahrscheinlichkeiten mit einem Wahrscheinlichkeitsschwellenwert vergleicht. Wenn zum Beispiel die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, und die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, kann CMM 228 bestimmen, dass der Benutzer beabsichtigt, die Nachricht an die mit der höheren Wahrscheinlichkeit assoziierte Herkunftsquelle zu senden.
Computergerät 210 kann basierend auf der Audioeingabe die Antwortnachricht erzeugen (560). Beispielsweise kann STT-Modul 224 die Audiodaten in Textdaten umwandeln, die die vom Benutzer empfangenen Audiodaten angeben. In einigen Beispielen kann Computergerät 210 zumindest einen Teil der Audiodaten zur Spracherkennungsverarbeitung an ISS 160 senden, sodass ISS 160 Textdaten erzeugen und die Textdaten an Computergerät 210 senden kann. CMM 228 kann basierend auf den Textdaten eine textbasierte Antwortnachricht erzeugen.
Nachdem Computergerät 210 die Antwortnachricht erzeugt, kann Computergerät 210 die Antwortnachricht senden (570). Die Antwortnachricht kann an die durch CMM 228 bestimmte(n) Herkunftsquelle(n) gesendet werden.
An diese Beschreibung angehängt findet sich eine Vielzahl von Ansprüchen, die auf mehrere Ausführungsformen des offenbarten Gegenstands gerichtet sind. Es versteht sich, dass sich Ausführungsformen des offenbarten Gegenstands auch innerhalb des Umfangs mehrerer Kombinationen besagter Ansprüche befinden können, wie z. B. Abhängigkeiten und mehrfache Abhängigkeiten derselben untereinander. Somit bilden sämtliche Abhängigkeiten und mehrfachen Abhängigkeiten durch Bezugnahme explizit oder anderweitig einen Teil dieser Beschreibung.
In einem oder mehreren Beispielen können die beschriebenen Funktionen in Hardware, Software, Firmware oder einer beliebigen Kombination derselben implementiert sein. Sofern in Software implementiert, können die Funktionen als eine oder mehrere Anweisungen oder Codes auf einem computerlesbaren Medium gespeichert oder über dieses übertragen und von einer hardwarebasierten Verarbeitungseinheit ausgeführt werden. Computerlesbare Medien können computerlesbare Speichermedien beinhalten, die physischen Medien, wie z. B. Datenspeichermedien, oder Kommunikationsmedien, darunter auch Medien entsprechen, die die Übertragung eines Computerprogramms von einem Standort zum anderen, z.B. gemäß einem Kommunikationsprotokoll, erleichtern. Auf diese Weise können computerlesbare Medien im Allgemeinen physischen computerlesbaren (1) Speichermedien, die nicht flüchtig sind oder (2) einem Kommunikationsmedium, wie beispielsweise einem Signal oder einer Trägerwelle, entsprechen. Datenspeichermedien können beliebige verfügbare Medien sein, auf die von einem oder mehreren Computern oder einem oder mehreren Prozessoren zugegriffen werden kann, um Anweisungen, Code und/oder Datenstrukturen zur Implementierung der in dieser Offenbarung beschriebenen Techniken abzurufen. Ein Computerprogrammprodukt kann ein computerlesbares Medium beinhalten.
Beispielsweise und nicht beschränkend können derartige computerlesbare Speichermedien RAM-, ROM-, EEPROM-, CD-ROM- oder andere optische Plattenspeicher, Magnetplattenspeicher oder andere magnetische Speichergeräte, Flash-Speicher oder ein beliebiges anderes Medium umfassen, das verwendet werden kann, um den gewünschten Programmcode in Form von Anweisungen oder Datenstrukturen zu speichern, auf die von einem Computer zugegriffen werden kann. Zudem wird jede Verbindung als ein computerlesbares Medium bezeichnet. Wenn beispielsweise Anweisungen von einer Webseite, einem Server oder einer anderen entfernten Quelle unter Verwendung eines Koaxialkabels, eines Glasfaserkabels, eines Twisted-Pair-Kabels, einer digitalen Teilnehmerleitung (DSL) oder drahtloser Technologien, wie beispielsweise Infrarot, Radio und Mikrowelle, übertragen werden, sind Koaxialkabel, Glasfaserkabel, Twisted-Pair-Kabel, DSL oder drahtlose Technologien, wie beispielsweise Infrarot, Radio und Mikrowelle, in der Definition von Medium mit eingeschlossen. Es sollte jedoch klar sein, dass computerlesbare Speichermedien und Datenspeichermedien keine Verbindungen, Trägerwellen, Signale oder andere physische Medien beinhalten, sondern stattdessen auf nicht flüchtige, physische Speichermedien ausgerichtet sind. Festplatten und Disketten, wie sie hierin verwendet werden, beinhalten Compact Disc (CD), Laserdisc, optische Disc, Digital Versatile Disc (DVD), Diskette und Blu-ray Disc, wobei Disketten typischerweise Daten magnetisch wiedergeben, während Discs Daten optisch mit Lasern wiedergeben. Kombinationen der vorstehenden Datenträger sollten ebenfalls in den Umfang von computerlesbaren Medien eingeschlossen sein.
Anweisungen können durch einen oder mehrere Prozessoren, wie beispielsweise einen oder mehrere digitale Signalprozessoren (DSPs), Universalmikroprozessoren, anwendungsorientierte integrierte Schaltungen (ASICs), feldprogrammierbare Universalschaltungen (FPGAs) oder beliebige andere gleichwertige integrierte oder diskrete Logikschaltungen ausgeführt werden. Dementsprechend kann sich der Begriff „Prozessor“, wie er hierin verwendet wird, auf eine beliebige der vorgenannten Strukturen oder eine andere Struktur beziehen, die für die Implementierung der hierin beschriebenen Techniken geeignet ist. Darüber hinaus kann in einigen Aspekten die hierin beschriebene Funktionalität innerhalb dedizierter Hardware- und/oder Softwaremodule bereitgestellt werden. Zudem könnten die Techniken vollständig in einer oder mehreren Schaltungen oder Logikelementen implementiert werden.
Die Techniken der vorliegenden Offenbarung können in einer breiten Vielfalt von Geräten oder Vorrichtungen implementiert sein, darunter auch in einem drahtlosen Mobilteil, einer integrierten Schaltung (IC) oder einem Satz von ICs (z. B. einem Chipsatz). In dieser Offenbarung werden verschiedene Komponenten, Module oder Einheiten beschrieben, um funktionelle Aspekte von Geräten zu betonen, die konfiguriert sind, die offenbarten Techniken auszuführen, jedoch nicht notwendigerweise eine Realisierung durch verschiedene Hardware-Einheiten erfordern. Vielmehr können, wie vorstehend beschrieben, verschiedene Einheiten in einer Hardware-Einheit kombiniert oder durch eine Sammlung von interoperativen Hardware-Einheiten, einschließlich eines oder mehrerer Prozessoren, wie vorstehend beschrieben, in Verbindung mit geeigneter Software und/oder Firmware bereitgestellt werden.
Es wurden mehrere Beispiele beschrieben. Diese und andere Beispiele liegen innerhalb des Umfangs der folgenden Ansprüche.

Claims

Verfahren, umfassend: Empfangen, durch ein mit einem Benutzer assoziiertes Computergerät, einer Nachricht von einer Herkunftsquelle; Empfangen, durch das Computergerät, einer Audioeingabe; Bestimmen, durch das Computergerät und zumindest teilweise auf der Audioeingabe und Kontextinformationen basierend, einer Wahrscheinlichkeit, dass der Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden; Bestimmen, durch das Computergerät, in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden; und in Reaktion auf ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden: Erzeugen, durch das Computergerät und basierend auf der Audioeingabe, der Antwortnachricht; und Senden, durch das Computergerät, der Antwortnachricht an die Herkunftsquelle.
Verfahren nach Anspruch 1, ferner umfassend: in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert nicht erreicht: Ausgeben, durch das Computergerät, einer Anfrage nach zusätzlichen Aktionen durch einen Benutzer; Empfangen, durch das Computergerät und vom Benutzer, einer zweiten Audioeingabe, die die Absicht des Benutzers, eine Nachricht zu senden, angibt; und Senden, durch das Computergerät und zumindest teilweise basierend auf der zweiten Audioeingabe, der Antwortnachricht an die Herkunftsquelle.
Verfahren nach einem der Ansprüche 1-2, wobei die Herkunftsquelle eine erste Herkunftsquelle ist, das Verfahren ferner umfassend: vor Empfangen der Audioeingabe, Empfangen, durch das Computergerät, einer Nachricht von einer zweiten Herkunftsquelle; Bestimmen, durch das Computergerät und zumindest teilweise basierend auf der Audioeingabe und Kontextinformationen, einer Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden; Bestimmen, durch das Computergerät und basierend auf der Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, und der Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, ob der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle oder an die zweite Herkunftsquelle zu senden; und in Reaktion auf ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden: Erzeugen der Antwortnachricht durch das Computergerät und basierend auf der Audioeingabe; und Senden der Antwortnachricht an die zweite Herkunftsquelle durch das Computergerät.
Verfahren nach Anspruch 3, wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht, aber dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert nicht erreicht, und wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht, aber dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert nicht erreicht.
Verfahren nach Anspruch 3, wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht und höher ist als die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, und wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht und höher ist als die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden.
Verfahren nach einem der Ansprüche 1-5, ferner umfassend: Bestimmen, durch das Computergerät, einer Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht von der Herkunftsquelle zu hören; und in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht von der Herkunftsquelle zu hören, einen Wahrscheinlichkeitsschwellenwert für ein Hören der Nachrichten erreicht: Erzeugen, durch das Computergerät und basierend auf der Nachricht von der Herkunftsquelle, von Audiodaten; und Ausgeben, durch das Computergerät, der Audiodaten.
Verfahren nach einem der Ansprüche 1-6, wobei die Kontextinformationen eines oder mehrere aus den Folgenden beinhalten: Frequenz eingehender Nachrichten von der Herkunftsquelle, Frequenz ausgehender Nachrichten an die Herkunftsquelle, verstrichene Zeit seit der letzten von der Herkunftsquelle empfangenen Nachricht oder verstrichene Zeit seit der letzten an die Herkunftsquelle gesendeten Nachricht.
Verfahren nach einem der Ansprüche 1-7, wobei die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, nicht auf einem Benutzerbefehl basiert.
Gerät, umfassend: ein Audioausgabegerät; ein Audioeingabegerät; eine Kommunikationseinheit; ein Nachrichtenverwaltungsmodul, das durch zumindest einen Prozessor betreibbar ist, um: über die Kommunikationseinheit eine Nachricht von einer Herkunftsquelle zu empfangen; über das Audioeingabegerät eine Audioeingabe zu empfangen; zumindest teilweise basierend auf der Audioeingabe und Kontextinformationen eine Wahrscheinlichkeit zu bestimmen, dass ein mit dem Gerät assoziierter Benutzer beabsichtigt, eine Antwortnachricht an die Herkunftsquelle zu senden; in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, einen Wahrscheinlichkeitsschwellenwert erreicht, zu bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden; und in Reaktion auf ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden: basierend auf der Audioeingabe die Antwortnachricht zu erzeugen; und über die Kommunikationseinheit die Antwortnachricht an die Herkunftsquelle zu senden.
Gerät nach Anspruch 9, wobei das Nachrichtenverwaltungsmodul des Weiteren durch den zumindest einen Prozessor betreibbar ist, um: in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert nicht erreicht: über das Audioausgabegerät eine Anfrage nach einer zusätzlichen Aktion durch einen Benutzer auszugeben; über das Audioeingabegerät eine zweite Audioeingabe zu empfangen, die die Absicht des Benutzers, eine Nachricht zu senden, angibt; und über die Kommunikationseinheit und zumindest teilweise auf der zweiten Audioeingabe basierend die Antwortnachricht an die Herkunftsquelle zu senden.
Gerät nach einem der Ansprüche 9-10, wobei die Herkunftsquelle eine erste Herkunftsquelle ist, wobei das Nachrichtenverwaltungsmodul des Weiteren durch den zumindest einen Prozessor betreibbar ist, um: vor einem Empfangen der Audioeingabe über die Kommunikationseinheit eine Nachricht von einer zweiten Herkunftsquelle zu empfangen; zumindest teilweise basierend auf der Audioeingabe und Kontextinformationen eine Wahrscheinlichkeit zu bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden; basierend auf der Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, und der Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, zu bestimmen, ob der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle oder an die zweite Herkunftsquelle zu senden; und in Reaktion auf ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden: basierend auf der Audioeingabe die Antwortnachricht zu erzeugen; und die Antwortnachricht über das Kommunikationsnetzwerk an die zweite Herkunftsquelle zu senden.
Gerät nach Anspruch 11, wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht, aber die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert nicht erreicht; und wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht, aber die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert nicht erreicht.
Gerät nach Anspruch 11, wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht und höher ist als die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, und wobei ein Bestimmen, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, des Weiteren in Reaktion auf ein Bestimmen erfolgt, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die zweite Herkunftsquelle zu senden, den Wahrscheinlichkeitsschwellenwert erreicht und höher ist als die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Antwortnachricht an die erste Herkunftsquelle zu senden.
Gerät nach einem der Ansprüche 9-13, wobei das Nachrichtenverwaltungsmodul des Weiteren von dem zumindest einen Prozessor betreibbar ist, um: eine Wahrscheinlichkeit zu bestimmen, dass der Benutzer beabsichtigt, die Nachricht von der Herkunftsquelle zu hören; und in Reaktion auf ein Bestimmen, dass die Wahrscheinlichkeit, dass der Benutzer beabsichtigt, die Nachricht von der Herkunftsquelle zu hören, einen Wahrscheinlichkeitsschwellenwert für ein Hören der Nachrichten erreicht: basierend auf der Nachricht von der Herkunftsquelle Audiodaten zu erzeugen; und die Audiodaten über das Audioausgabegerät auszugeben.
Computerlesbares Speichermedium, das Anweisungen umfasst, die, wenn sie ausgeführt werden, einen oder mehrere Prozessoren eines Computersystems konfigurieren, eines der Verfahren der Ansprüche 1-8 durchzuführen.