DE112020007827T5

DE112020007827T5 - Auswählbare bedienelemente für interaktive sprachantwortsysteme

Info

Publication number: DE112020007827T5
Application number: DE112020007827.2T
Authority: DE
Inventors: Brandon Charles Barbello; Shenaz Zack; Tim Wantland; Jan Piotr Jedrzejowicz
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2023-09-28
Also published as: EP4248638A1; JP2023552794A; US20240040039A1; KR20230074810A; WO2022125061A1; CN116508307A

Abstract

Dieses Dokument beschreibt Systeme und Techniken, um auswählbare Bedienelemente für Systeme mit interaktiver Sprachantwort (IVR) zu ermöglichen. Die beschriebenen Systeme und Techniken können ermitteln, ob Audiodaten, die mit einem Sprach- oder Videoanruf zwischen einem Benutzer eines Computergeräts und einem Dritten assoziiert sind, mehrere auswählbare Optionen beinhalten. Der Dritte stellt die auswählbaren Optionen während des Gesprächs hörbar bereit. In Reaktion auf ein Ermitteln, dass die Audiodaten die auswählbaren Optionen beinhalten, kann das Computergerät eine Textbeschreibung der mehreren auswählbaren Optionen ermitteln. Die beschriebenen Systeme und Techniken können dann zwei oder mehr auswählbare Bedienelemente auf einer Anzeige anzeigen. Der Benutzer kann ein auswählbares Bedienelement auswählen, um eine ausgewählte Option der mehreren auswählbaren Optionen anzugeben. Auf diese Weise können die beschriebenen Systeme und Techniken eine Benutzererfahrung mit Sprachanrufen und Videoanrufen verbessern, indem sie IVR-Systeme leichter navigieren und verstehen lassen.

Description

HINTERGRUND
Interaktive Sprachantwortsysteme (Interactive Voice Response, IVR), auch Telefon-Baumstrukturen genannt, ermöglichen es Anrufern, über eine Spracheingabe oder eine numerische Tastatur mit einem computergesteuerten Telefonsystem zu interagieren. Beispielsweise können Telefonsysteme IVR für mobile Käufe, Bankzahlungen, Dienstleistungen, Einzelhandelsbestellungen, Versorgungsdienste, Reiseinformationen und Wetterberichte nutzen. IVR-Systeme verwenden zum Identifizieren und Segmentieren von Anrufern in der Regel eine Reihe von Audiomenüs, die eine Vielzahl von Optionen beinhalten, die für Anrufer schwer zu verstehen, zu navigieren oder zu merken sein können.
KURZDARSTELLUNG
Dieses Dokument beschreibt Systeme und Techniken, um auswählbare Bedienelemente für IVR-Systeme bereitzustellen. Die beschriebenen Systeme und Techniken können ermitteln, ob Audiodaten, die mit einem Sprach- oder Videoanruf zwischen einem Benutzer eines Computergeräts und einem Dritten assoziiert sind, mehrere auswählbare Optionen beinhalten. Der Dritte stellt die auswählbaren Optionen während des Gesprächs hörbar bereit. In Reaktion auf das Ermitteln, dass die Audiodaten die auswählbaren Optionen beinhalten, kann das Computergerät eine Textbeschreibung der mehreren auswählbaren Optionen ermitteln. Die beschriebenen Systeme und Techniken können dann zwei oder mehr auswählbare Bedienelemente auf einer Anzeige anzeigen. Der Benutzer kann ein auswählbares Bedienelement auswählen, um eine ausgewählte Option der mehreren auswählbaren Optionen anzugeben. Auf diese Weise können die beschriebenen Systeme und Techniken die Erfahrung des Benutzers bei Sprach- und Videoanrufen verbessern, indem sie die Navigation und das Verständnis von IVR-Systemen erleichtern.
Die beschriebenen Systeme und Techniken können die Einfachheit verbessern, mit der Benutzer mit einem IVR-System interagieren können, wie z. B. Benutzer mit bestimmten Kommunikationsstörungen. Beispielsweise können die beschriebenen Systeme und Techniken einem schwerhörigen Benutzer, der andernfalls nur schwer oder gar nicht mit einem IVR-System interagieren kann, ermöglichen, eine Antwort an das IVR-System bereitzustellen. Auf ähnliche Weise können die beschriebenen Systeme und Techniken einem Benutzer mit einem Sprachfehler, der andernfalls nur schwer oder gar nicht in der Lage wäre, mit einem IVR-System zu interagieren, ermöglichen, eine Antwort an das IVR-System bereitzustellen. Die beschriebenen Systeme und Techniken können auch einen Benutzer mit einer Beeinträchtigung des Kurzzeitgedächtnisses, der sich ansonsten nicht an eine Liste von Optionen erinnern kann, die von einem IVR-System bereitgestellt werden, unterstützen, um eine Antwort an das IVR-System bereitzustellen. Die beschriebenen Systeme und Techniken können auch die Einfachheit verbessern, mit der ein Benutzer mit einem IVR-System interagieren kann, wenn es ansonsten für den Benutzer schwierig wäre, Optionen zu verstehen, die in einem Sprach- oder Videoanruf bereitgestellt werden, beispielsweise wenn das Audio verzerrt ist oder der Benutzer durch ein Umgebungsgeräusch, das nicht aus dem Sprach- oder Videoanruf stammt, abgelenkt wird.
Ein Computergerät erhält beispielsweise Audiodaten, die von einer auf dem Computergerät ausgeführten Kommunikationsanwendung ausgegeben werden. Die Audiodaten umfassen hörbare Teile eines Sprachanrufs oder eines Videoanrufs zwischen einem Benutzer des Computergeräts und einem Dritten. Das Computergerät ermittelt unter Nutzung der hörbaren Teile des Sprachanrufs oder des Videoanrufs, ob die Audiodaten zwei oder mehr auswählbare Optionen beinhalten. Der Dritte stellt die zwei oder mehr auswählbaren Optionen während des Sprachanrufs oder des Videoanrufs hörbar bereit. In Reaktion auf das Ermitteln, dass die Audiodaten die zwei oder mehr auswählbaren Optionen beinhalten, ermittelt das Computergerät eine Textbeschreibung der zwei oder mehr auswählbaren Optionen, die eine Transkription von zumindest einem Teil der zwei oder mehr auswählbaren Optionen bereitstellt. Das Computergerät zeigt dann zwei oder mehr auswählbare Bedienelemente an. Die zwei oder mehr auswählbaren Bedienelemente können auswählbar sein, um dem Dritten eine ausgewählte Option der zwei oder mehr auswählbaren Optionen anzugeben. Jedes der zwei oder mehr auswählbaren Bedienelemente stellt die Textbeschreibung einer jeweiligen auswählbaren Option bereit.
Dieses Dokument beschreibt auch andere Verfahren, Konfigurationen und Systeme, um auswählbare Bedienelemente für IVR-Systeme bereitzustellen.
Diese Kurzdarstellung wird bereitgestellt, um vereinfachte Konzepte für die Bereitstellung auswählbarer Bedienelemente für IVR-Systeme vorzustellen, die in der ausführlichen Beschreibung und den Zeichnungen näher beschrieben sind. Diese Kurzdarstellung dient weder der Identifizierung von wesentlichen Merkmalen des beanspruchten Gegenstandes, noch ist sie zur Verwendung beim Bestimmen des Schutzumfangs des beanspruchten Gegenstandes gedacht.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Details eines oder mehrerer Aspekte von visuellen Benutzeroberflächen zum Bereitstellen auswählbarer Bedienelemente für IVR-Systeme werden in diesem Dokument unter Bezugnahme auf die folgenden Zeichnungen beschrieben. Es werden in mehreren Zeichnungen dieselben Nummern verwendet, um sich auf gleiche Merkmale und Komponenten zu beziehen.

1 stellt eine exemplarische Umgebung dar, die ein Computergerät beinhaltet, das auswählbare Bedienelemente für IVR-Systeme bereitstellen kann.
2 stellt ein exemplarisches Gerätediagramm eines Computergeräts dar, das visuelle Benutzeroberflächen für interaktive Sprachantwortsysteme bereitstellen kann.
3 stellt ein Beispieldiagramm eines maschinell erlernten Modells eines Computergeräts dar, das Textbeschreibungen für auswählbare Bedienelemente in Reaktion auf ein IVR-System bereitstellen kann.
4 stellt ein Flussdiagramm von exemplarischen Operationen eines Computergeräts dar, das auswählbare Bedienelemente und Benutzerdaten in Verbindung mit Sprachanrufen und Videoanrufen bereitstellen kann.
5 stellt exemplarische Operationen dar, um auswählbare Bedienelemente für IVR-Systeme bereitzustellen.
6A-6D stellen exemplarische Benutzeroberflächen eines Computergeräts dar, um Benutzer bei Sprachanrufen und Videoanrufen zu unterstützen.
7A-7C stellen andere exemplarische Benutzeroberflächen eines Computergeräts dar, um Benutzer bei Sprachanrufen und Videoanrufen zu unterstützen.
8A-8D stellen andere exemplarische Benutzeroberflächen eines Computergeräts dar, um Benutzer bei Sprachanrufen und Videoanrufen zu unterstützen.

AUSFÜHRLICHE BESCHREIBUNG
ÜBERBLICK
Dieses Dokument beschreibt Techniken und Systeme, um auswählbare Bedienelemente auf einem Computergerät für IVR-Systeme bereitzustellen. Wie zuvor erwähnt, ermöglichen es IVR-Systeme Anrufern, durch Spracheingabe oder Doppelton-Mehrfrequenztöne (DTMFs), die durch eine numerische Tastatur erzeugt werden, mit einem Telefonsystem zu interagieren. IVR-Systeme können eine Reihe von Menüs bereitstellen, die jeweils mehrere auswählbare Optionen enthalten. Die Audiomenüs können verwirrend und für Anrufer schwierig zu navigieren sein. Beispielsweise stellen einige IVR-Systeme in jedem Menü viele Optionen oder detaillierte Optionen bereit, die nur schwer in Erinnerung zu behalten sind. Ein schwerhöriger Benutzer kann es als schwierig oder unmöglich empfinden, die Optionen zu hören, und kann daher normalerweise keine Antwort zur Auswahl einer Option geben. Ein Benutzer mit einem Sprachfehler ist möglicherweise nicht in der Lage, eine sprachliche Antwort auf die Optionen bereitzustellen. Ein Benutzer mit einer Beeinträchtigung seines Kurzzeitgedächtnisses kann sich an die vom IVR-System zur Verfügung gestellten Möglichkeiten möglicherweise nicht mehr erinnern, wenn es Zeit ist, eine Antwort bereitzustellen.
Bedenken Sie ein Smartphone mit einer Kommunikationsanwendung, die es Benutzern ermöglicht, Sprachanrufe oder Videoanrufe zu führen. Beispielsweise kann ein Benutzer mit der Kommunikationsanwendung eine Arztpraxis anrufen. Die Arztpraxis kann ein IVR-System nutzen, um Anrufer an die entsprechenden Informationen, Mitarbeiter oder Abteilungen weiterzuleiten. Das erste Audiomenü kann den Benutzer auffordern, eine entsprechende Sprache auszuwählen. Nach der Auswahl einer Sprache durch akustische Kommunikation oder Drücken einer mit der bevorzugten Sprache assoziierten Nummer kann das IVR-System ein weiteres Menü mit Optionen anbieten. Beispielsweise kann das IVR-System den Anrufer zu zusätzlichen Menüs leiten, die Rechnungsstellung, Terminplanung, medizinische Fragen, Dienstanbieter und Personalfragen betreffen.
Kommunikationsanwendungen unterstützen im Allgemeinen Benutzer nicht bei der Navigation von IVR-Systemen. Vielmehr erfordern Kommunikationsanwendungen und Computergeräte in der Regel, dass ein Benutzer die Menüoptionen erinnert und die Audiomenüs mittels Spracheingabe oder der numerischen Tastatur navigiert.
Die beschriebenen Techniken und Systeme können Benutzern helfen, IVR-Systeme zu navigieren, indem sie auswählbare Bedienelemente bereitstellen, die mit den auswählbaren Optionen assoziiert sind. Insbesondere können die beschriebenen Techniken und Systeme Audiodaten von einem Sprachanruf oder einem Videoanruf erhalten und ermitteln, ob das Gespräch zwei oder mehr auswählbare Optionen beinhaltet. In Reaktion auf die Ermittlung, dass die Konversation auswählbare Optionen beinhaltet, können die beschriebenen Techniken und Systeme eine Textbeschreibung ermitteln, die mit den auswählbaren Optionen assoziiert ist.
Betrachten Sie das zuvor beschriebene Arztpraxisszenario. Das Smartphone kann den Sprachanruf abhören und ermitteln, ob die Arztpraxis hörbar ein IVR-Menü mit auswählbaren Optionen bereitstellt. In Reaktion auf die Ermittlung, dass die Arztpraxis hörbar wählbare Optionen bereitstellt, können die beschriebenen Systeme und Techniken eine Textbeschreibung der wählbaren Optionen ermitteln und wählbare Bedienelemente auf einer Smartphone-Anzeige anzeigen. Jedes der auswählbaren Bedienelemente stellt die Textbeschreibung einer jeweiligen auswählbaren Option bereit. Durch Auswahl eines der auswählbaren Bedienelemente kann der Benutzer das Smartphone veranlassen, eine ausgewählte Option anzuzeigen. Auf diese Weise bieten die beschriebenen Techniken und Systeme eine anwenderfreundliche Erfahrung für Smartphone-Benutzer, um IVR-Systeme leicht zu navigieren, und Benutzern, die normalerweise nicht in der Lage sind, mit einem IVR-System zu interagieren, zu ermöglichen, mit einem solchen System zu interagieren. Die beschriebenen Techniken und Systeme sind mit einer Vielzahl verschiedener, bestehender IVR-Systeme kompatibel.
Als nicht einschränkendes Beispiel kann ein Computergerät Audiodaten erhalten, die von einer Kommunikationsanwendung ausgegeben werden. Die Audiodaten umfassen hörbare Teile eines Sprachanrufs oder Videoanrufs zwischen einem Benutzer des Computergeräts und einem Dritten. Das Computergerät ermittelt unter Nutzung der hörbaren Teile, ob die Audiodaten zwei oder mehr auswählbare Optionen beinhalten, die von dem Dritten während des Sprachanrufs oder des Videoanrufs hörbar ermittelt werden. In Reaktion auf das Ermitteln, dass die Audiodaten die zwei oder mehr auswählbaren Optionen beinhalten, ermittelt das Computergerät eine Textbeschreibung der zwei oder mehr auswählbaren Optionen. Die Textbeschreibung beinhaltet eine Transkription von zumindest einem Teil der zwei oder mehr auswählbaren Optionen. Das Computergerät zeigt dann zwei oder mehr auswählbare Bedienelemente auf einer Anzeige des Computergeräts an. Die zwei oder mehr auswählbaren Bedienelemente geben die Textbeschreibung der jeweiligen auswählbaren Optionen an. Der Benutzer kann ein auswählbares Bedienelement auswählen, um dem Dritten eine aus den zwei oder mehr auswählbaren Optionen ausgewählte Option anzuzeigen.
Womöglich nutzt das Computergerät die Informationen aus den Audiodaten jedoch nur, nachdem das Computergerät eine ausdrückliche Erlaubnis von einem Benutzer des Computergeräts für eine Nutzung der Daten empfängt. Zum Beispiel kann, in den zuvor erläuterten Situationen, in denen das Computergerät Audiodaten aus Sprach- und Videoanrufen sammeln kann, einzelnen Benutzern die Möglichkeit bereitgestellt werden, Eingaben bereitzustellen, um zu steuern, ob Programme oder Merkmale des Computergeräts die Informationen sammeln und nutzen können. Den einzelnen Benutzern kann ferner eine Möglichkeit zur Steuerung bereitgestellt werden, was die Programme oder Merkmale mit den Informationen tun können und was nicht.
Dieses Beispiel ist nur eine Veranschaulichung, wie die beschriebenen auswählbaren Bedienelemente für IVR-Systeme die Benutzererfahrung auf einem Computergerät verbessern können und es Benutzern mit Kommunikationsstörungen ermöglichen, mit einem IVR-System zu interagieren. Weitere Beispiele und Implementierungen sind in diesem Dokument beschrieben. Dieses Dokument beschreibt nun weitere exemplarische Konfigurationen, Komponenten und Verfahren, um auswählbare Bedienelemente für IVR-Systeme auf einem Computergerät bereitzustellen.
BEISPIELHAFTE UMGEBUNG
1 veranschaulicht eine exemplarische Umgebung 100, die ein exemplarisches Computergerät 102 beinhaltet, das auswählbare Bedienelemente für IVR-Systeme bereitstellen kann. Zusätzlich zum Computergerät 102 beinhaltet die Umgebung 100 ein Computersystem 104 und ein Anrufersystem 106. Das Computergerät 102, das Computersystem 104 und das Anrufersystem 106 sind kommunikativ mit Netzwerk 108 gekoppelt.
Obwohl Operationen des Computergeräts 102 als lokal ausgeführt beschrieben werden, können in einigen Beispielen die Operationen durch mehrere Computergeräte und -systeme (z. B. das Computersystem 104) ausgeführt werden, einschließlich zusätzlicher Computergeräte und -systeme, die über die in 1 dargestellten hinausgehen. Zum Beispiel können das Computersystem 104, das Anrufersystem 106 oder ein anderes Gerät oder System, das kommunikativ mit dem Netzwerk 108 verbunden ist, einige oder alle Funktionen des Computergeräts 102 ausführen oder umgekehrt.
Das Computersystem 104 stellt eine beliebige Kombination eines oder mehrerer Computer, Großrechner, Server, Cloud-Computersysteme oder anderer Arten von Remote-Computersystemen dar, die in der Lage sind, Informationen mit dem Computergerät 102 über das Netzwerk 108 auszutauschen. Das Computersystem 104 kann zusätzliche Prozessoren, gespeicherte Daten oder andere Computerressourcen speichern oder Zugriff darauf bereitstellen, die von dem Computergerät 102 benötigt werden, um die beschriebenen Systeme und Techniken zum Bereitstellen auswählbarer Bedienelemente für IVR-Systeme auf dem Computergerät 102 zu implementieren.
Das Anrufersystem 106 kann ein IVR-System 110 ausführen, um Telefoniedaten mit dem Computergerät 102 über das Netzwerk 108 zu übertragen und zu empfangen. Das Anrufersystem 106 kann beispielsweise ein Mobiltelefon, ein Festnetztelefon, ein Laptop, ein Arbeitsplatz in einem Telefonanrufzentrum oder ein anderes Computergerät sein, das für die Bereitstellung des IVR-Systems 110 an einen Anrufer konfiguriert ist. Das Anrufersystem 106 stellt eine beliebige Kombination eines oder mehrerer Computer, Computergeräte, Großrechner, Server, Cloud-Computersysteme oder anderer Arten von Remote-Computersystemen dar, die in der Lage sind, Informationen über das Netzwerk 108 auszutauschen, um einen Telefonanruf zwischen dem Anrufersystem 106 und dem Computergerät 102 zu realisieren.
Das Netzwerk 108 stellt ein beliebiges öffentliches oder privates Kommunikationsnetzwerk zum Übermitteln von Daten (z. B. Sprachkommunikation, Videokommunikation, Datenpakete) zwischen Computersystemen, Servern und Computergeräten dar. Das Netzwerk 108 kann ein öffentliches Fernsprechwählnetz (Public Switched Telephone Network, PSTN), ein Drahtlosnetzwerk (z. B. ein Mobilfunknetzwerk, ein drahtloses lokales Netzwerk (WLAN), ein drahtgebundenes Netzwerk ((z. B. ein lokales Netzwerk (LAN) ein Großraumnetzwerk (WAN), ein Internetprotokoll (IP)-Telefonienetzwerk (z. B. ein Voice-over-IP-(VoIP-)Netzwerk oder eine Kombination davon beinhalten. Das Netzwerk 108 kann Netzwerk-Hubs, Netzwerk-Switches, Netzwerk-Router oder jede andere Netzwerkausrüstung beinhalten, die operativ miteinander gekoppelt ist. Das Computergerät 102, das Computersystem 104 und das Anrufersystem 106 können unter Nutzung jeder beliebigen geeigneten Kommunikationstechnik Daten über das Netzwerk 108 übermitteln und empfangen. Das Computergerät 102, das Computersystem 104 und das Anrufersystem 106 können mit dem Netzwerk 108 unter Nutzung von entsprechenden Netzwerkverbindungen operativ gekoppelt sein.
Das Computergerät 102 stellt jedes geeignete Computergerät dar, das in der Lage ist, auswählbare Bedienelemente für IVR-Systeme bereitzustellen. Das Computergerät 102 kann beispielsweise ein Smartphone sein, auf dem ein Benutzer Eingaben bereitstellt, um Sprachanrufe oder Videoanrufe mit einer Anruferinstanz (z. B. dem Anrufersystem 106) zu tätigen oder zu akzeptieren.
Das Computergerät 102 beinhaltet ein oder mehrere Kommunikationseinheiten 112. Die Kommunikationseinheiten 112 ermöglichen es dem Computergerät 102, über drahtlose oder drahtgebundene Netzwerke einschließlich des Netzwerks 108 zu kommunizieren. Die Kommunikationseinheiten 112 können beispielsweise auch Sendeempfänger für Mobiltelefonkommunikation und/oder für Netzwerkdatenkommunikation beinhalten. Das Computergerät 102 kann die Kommunikationseinheiten 112 und die unterstützenden Schaltungen (z. B. Antennen, Front-End-Module, Verstärker) auf ein oder mehrere Frequenzbänder abstimmen, die durch verschiedene Kommunikationsstandards definiert sind.
Das Computergerät 102 beinhaltet eine Benutzeroberflächenkomponente 114 mit einer Audiokomponente 116, einer Anzeigekomponente 118 und einer Eingabekomponente 120. Das Computergerät 102 beinhaltet außerdem ein Betriebssystem 122 und eine Kommunikationsanwendung 124. Diese Komponenten und sonstige Komponenten (nicht dargestellt) des Computergeräts 102 sind in verschiedener Weise, einschließlich durch drahtgebundene und drahtlose Busse und Verbindungen, kommunikativ miteinander verbunden. Das Computergerät 102 kann zusätzliche Komponenten und Schnittstellen beinhalten, die aus Gründen der Einfachheit in 1 ausgelassen werden.
Die Benutzeroberflächenkomponente 114 verwaltet Eingaben und Ausgaben an die Benutzeroberfläche 126, die von dem Betriebssystem 122 oder von Anwendungen gesteuert werden, die auf dem Computergerät 102 ausgeführt werden. Die Kommunikationsanwendung 124 kann beispielsweise die Benutzeroberfläche 126 veranlassen, verschiedene Benutzeroberflächenelemente anzuzeigen, einschließlich Eingabebedienelemente, Navigationskomponenten, Informationskomponenten oder einer Kombination davon.
Wie zuvor beschrieben, kann die Benutzeroberflächenkomponente 114 die Audiokomponente 116, die Anzeigekomponente 118 und die Eingabekomponente 120 beinhalten. Die Audiokomponente 116, die Anzeigekomponente 118 und die Eingabekomponente 120 können eigenständig sein oder als eine einzige Komponente integriert sein. Die Audiokomponente 116 (z. B. ein einzelner Lautsprecher oder mehrere Lautsprecher) kann ein Audiosignal als Eingabe empfangen und das Audiosignal in hörbaren Klang umwandeln. Die Anzeigekomponente 118 kann visuelle Elemente auf der Benutzeroberfläche 126 anzeigen. Die Anzeigekomponente 118 kann jede geeignete Anzeigetechnologie beinhalten, einschließlich Leuchtdioden-(LED-), organische Leuchtdioden-(OLED-) und Flüssigkristallanzeige-(LCD-)Technologien. Die Eingabekomponente 120 kann ein Mikrofon, ein präsenzempfindliches Gerät, ein Touchscreen, eine Maus, eine Tastatur oder eine andere Art von Komponente sein, die zum Empfang von Benutzereingaben konfiguriert ist.
Das Betriebssystem 122 steuert allgemein das Computergerät 102, einschließlich der Kommunikationseinheiten 112, der Benutzeroberflächenkomponente 114 und sonstiger Peripheriegeräte. Das Betriebssystem 122 kann beispielsweise Hardware- und Softwareressourcen des Computergeräts 102 verwalten und gemeinsame Dienste für Anwendungen bereitstellen. Als weiteres Beispiel kann das Betriebssystem 122 die Aufgabenplanung steuern. Das Betriebssystem 122 und die Anwendungen sind im Allgemeinen durch einen oder mehrere Prozessoren (z. B. ein System auf Chip (SoC), eine zentrale Verarbeitungseinheit (CPU)) ausführbar, um Kommunikationen und Benutzerinteraktion mit dem Computergerät 102 zu ermöglichen. Das Betriebssystem 122 stellt im Allgemeinen eine Benutzerinteraktion durch die Benutzeroberfläche 126 bereit.
Das Betriebssystem 122 stellt auch eine Ausführungsumgebung für Anwendungen, wie z. B. die Kommunikationsanwendung 124, bereit. Die Kommunikationsanwendung 124 ermöglicht dem Computergerät 102, Sprachanrufe und Videoanrufe mit Anrufern, einschließlich des Anrufersystems 106, auszuführen und zu empfangen.
Während eines Sprachanrufs oder eines Videoanrufs kann die Kommunikationsanwendung 124 die Benutzeroberfläche 126 veranlassen, ein Anruferfeld 128, ein Ziffernfeldsymbol 130, ein Freisprechsymbol 132, auswählbare Bedienelemente 134 und ein Anrufendsymbol 136 anzuzeigen. Das Anruferfeld 128 kann den Namen und die Telefonnummer des Anrufers (z. B. des Anrufersystems 106) angeben. Das Ziffernfeldsymbol 130 ist ein auswählbares Symbol, das, wenn es ausgewählt ist, bewirkt, dass ein numerisches Tastenfeld auf der Benutzeroberfläche 126 angezeigt wird. Das Freisprechsymbol 132 ist ein auswählbares Symbol, das, wenn es ausgewählt ist, das Computergerät 102 veranlasst, eine Freisprechfunktionalität für den Sprachanruf oder Videoanruf zu verwenden.
Die auswählbaren Bedienelemente 134 sind von einem Benutzer des Computergeräts 102 auswählbar, um eine bestimmte Operation oder Funktion auszuführen. In dem veranschaulichten Beispiel sind die auswählbaren Bedienelemente 134 von dem Benutzer auswählbar, um dem Anrufersystem 106 eine ausgewählte Option aus auswählbaren Optionen anzuzeigen, die vom IVR-System 110 bereitgestellt werden. Die auswählbaren Bedienelemente 134 können Tasten, Schalter, auswählbaren Text, Schieber, Kontrollkästchen oder Symbole beinhalten. Das Anrufendsymbol 136 ermöglicht einem Benutzer des Computergeräts 102, einen Sprachanruf oder einen Videoanruf zu beenden.
Das Betriebssystem 122 kann erfasste Eingaben an der Eingabekomponente 120 mit Elementen der Benutzeroberfläche 126 korrelieren. In Reaktion auf ein Empfangen einer Eingabe an der Eingabekomponente 120 (z. B. einem Tippen) kann das Betriebssystem 122 oder die Kommunikationsanwendung 124 Informationen von der Benutzeroberflächenkomponente 114 zur erkannten Eingabe empfangen. Das Betriebssystem 122 oder die Kommunikationsanwendung 124 kann in Reaktion auf die erkannte Eingabe eine Funktion oder Operation ausführen. Das Betriebssystem 122 kann beispielsweise ermitteln, dass die Eingabe dem Benutzer entspricht, der eine der auswählbaren Bedienelemente 134 auswählt, und in Reaktion darauf eine Angabe der entsprechenden ausgewählten Option an das Anrufersystem 106 senden.
Im Betrieb kann das Betriebssystem 122 oder die Kommunikationsanwendung 124 automatisch die auswählbaren Bedienelemente 134 erzeugen, die auswählbaren Optionen des IVR-Systems 110 entsprechen, die vom Anrufersystem 106 bereitgestellt werden. Das Computergerät 102 kann Audiodaten von einem Audiomischer oder einer Sound-Engine des Betriebssystems 122 erhalten. Die Audiodaten beinhalten im Allgemeinen die hörbaren Teile des Sprachanrufs oder des Videoanrufs, einschließlich der IVR-Optionen, die vom IVR-System 110 bereitgestellt werden.
BEISPIELKONFIGURATIONEN
Dieser Abschnitt veranschaulicht beispielhafte Konfigurationen von Systemen, um auswählbare Bedienelemente für IVR-Systeme bereitzustellen, die getrennt oder gemeinsam ganz oder teilweise auftreten können. In diesem Abschnitt sind verschiedene beispielhafte Ausgestaltungen beschrieben, die jeweils anhand einer Zeichnung zur besseren Lesbarkeit beschrieben sind.
2 veranschaulicht ein exemplarisches Gerätediagramm 200 eines Computergeräts 202, das auswählbare Bedienelemente für IVR-Systeme (z. B. das IVR-System 110) bereitstellen kann. Das Computergerät 202 ist ein Beispiel für das Computergerät 102 mit einigen zusätzlichen Details.
Wie in 2 dargestellt, kann das Computergerät 202 ein Smartphone 202-1, ein Tablet-Gerät 202-2, ein Laptop-Computer 202-3, ein Desktop-Computer 202-4, eine computergestützte Uhr 202-5 oder ein anderes tragbares Gerät, ein Sprachassistenzsystem 202-6 oder ein in einem Fahrzeug installiertes Computersystem sein.
Zusätzlich zu den Kommunikationseinheiten 112 und der Benutzeroberflächenkomponente 114 beinhaltet das Computergerät 202 einen oder mehrere Prozessoren 204 und computerlesbare Speichermedien (CRM) 206.
Die Prozessoren 204 können eine beliebige Kombination aus einer oder mehreren Steuerungen, Mikrocontrollern, Prozessoren, Mikroprozessoren, Hardwareprozessoren, Hardwareverarbeitungseinheiten, Digitalsignalprozessoren, Grafikprozessoren, Grafikverarbeitungseinheiten und dergleichen beinhalten. Der Prozessor 204 kann zum Beispiel ein integriertes Prozessor- und Speichersubsystem sein, einschließlich, als nicht einschränkende Beispiele, eines SoC, einer CPU, einer Grafikverarbeitungseinheit oder einer Tensorverarbeitungseinheit. Ein SoC integriert im Allgemeinen viele der Komponenten des Computergeräts 202 in ein einzelnes Gerät, einschließlich einer zentralen Verarbeitungseinheit, eines Speichers und Eingangs- und Ausgangsports. Eine CPU führt im Allgemeinen Befehle und Prozesse aus, die für das Computergerät 202 benötigt werden. Eine Grafikverarbeitungseinheit führt Operationen aus, um Grafiken des Computergeräts 202 anzuzeigen, und kann andere spezifische Rechenaufgaben ausführen. Die Tensorverarbeitungseinheit führt in der Regel symbolische Abgleichsoperationen in Maschinenlernanwendungen mit neuronalen Netzwerken durch. Die Prozessoren 204 können einen einzelnen Kern oder mehrere Kerne beinhalten.
Die CRM 206 können dem Computergerät 202 eine persistente und/oder nichtpersistente Speicherung von ausführbaren Anweisungen (z. B. Firmware, Wiederherstellungsfirmware, Software, Anwendungen, Module, Programme, Funktionen) und Daten (z. B. Benutzerdaten, Betriebsdaten) zur Unterstützung einer Ausführung der ausführbaren Anweisungen bereitstellen. Die CRM 206 beinhalten beispielsweise Anweisungen, die bei Ausführung durch die Prozessoren 204 das Betriebssystem 122 und die Kommunikationsanwendung 124 ausführen. Beispiele für die CRM 206 beinhalten flüchtigen Speicher und nichtflüchtigen Speicher, feste und herausnehmbare Mediengeräte und beliebige geeignete Speichergeräte oder elektronische Datenspeicher, die ausführbare Anweisungen und Unterstützungsdaten halten. Die CRM 206 können verschiedene Implementierungen eines Direktzugriffsspeichers (RAM), statischen RAMs (SRM), dynamischen RAMs (DRAM), nichtflüchtigen RAMs (NVRAM), Nur-Lese-Speichers (ROM), Flash-Speichers und anderen Arten von Massenspeichern in verschiedenen Speichergerätekonfigurationen beinhalten. Die CRM 206 schließen Ausbreitungssignale aus. Die CRM 206 können ein Festkörperlaufwerk (SSD) oder ein Festplattenlaufwerk (HDD) sein.
Das Betriebssystem 122 kann außerdem einen Audiomischer 208 und ein Untertitelmodul 210 beinhalten. Der Audiomischer 208 und das Untertitelmodul 210 können spezialisierte Hardwarekomponenten, Softwarekomponenten oder eine Kombination davon sein. In anderen Beispielen kann der Audiomischer 208 bzw. das Untertitelmodul 210 getrennt vom Betriebssystem 122 implementiert sein (z. B. als ein System-Plugin oder zusätzlicher Zusatzdienst, der auf dem Computergerät 202 lokal installiert ist).
Der Audiomischer 208 kann Audiodaten erhalten und konsolidieren, die von Anwendungen, einschließlich der Kommunikationsanwendung 124, die auf dem Computergerät 202 ausgeführt werden, erzeugt werden. Der Audiomischer 208 erhält Audioströme von Anwendungen, wie z. B. der Kommunikationsanwendung 124, und erzeugt Audioausgabesignale, die die in den Audioströmen codierten Klänge wiedergeben, wenn sie kombiniert und von der Audiokomponente 116 ausgegeben werden. Der Audiomischer 208 kann die Audiosignale auf andere Weise einstellen, um zum Beispiel Fokus, Intensität und Klangstärke zu steuern. Der Audiomischer stellt eine Schnittstelle zwischen der Anwendungsquelle, die die Inhalte erzeugt, und der Audiokomponente 116, die anhand der Inhalte Klänge erzeugt, bereit. Der Audiomischer 208 kann rohe Audiodaten verwalten, diese analysieren und Audiosignale, die von der Audiokomponente 116 ausgegeben oder, über die Kommunikationseinheiten 112, an ein anderes Computergerät (z. B. das Anrufersystem 106) gesendet werden sollen.
Das Untertitelmodul 210 ist konfiguriert, Audiodaten, in Rohform, wie durch den Audiomischer 208 empfangen (z. B. als ein Bytestrom), zu analysieren. Das Untertitelmodul 210 kann zum Beispiel Spracherkennung an den Audiodaten durchführen, um zu ermitteln, ob die Audiodaten auswählbare Optionen eines IVR-Systems, eine Anfrage nach Benutzerinformationen oder kommunizierte Informationen in Verbindung mit einem Anrufkontext beinhalten. Anstatt jedes Audiosignal zu verarbeiten, kann das Untertitelmodul 210 einzelne vorgemischte Audiodatenströme identifizieren, die für Untertitelung geeignet sind. Beispielsweise kann das Untertitelmodul 210 automatisch gesprochene Audiodaten untertiteln, nicht jedoch Audiodaten von Benachrichtigungen oder Sonifikations-Audiodaten (z. B. Systemsignalpieps- und -klingeltöne). Das Untertitelmodul 210 kann einen Filter auf die vom Audiomischer 208 empfangenen Byteströme anwenden, um die Audiodaten zu identifizieren, die für die Untertitelung geeignet sind. Das Untertitelmodul 210 kann ein maschinell erlerntes Modell verwenden, um Audiodatenbeschreibungen aus hörbaren Teilen eines Sprachanrufs oder eines Videoanrufs zu ermitteln.
Statt alle Audiodaten zu untertiteln, kann das Betriebssystem 122 Metadaten verwenden, um die Untertitelung auf bestimmte Teile der Audiodaten zu fokussieren. Das Untertitelmodul 210 kann sich beispielsweise auf Audiodaten konzentrieren, die sich auf das Bereitstellen von auswählbaren Bedienelementen für IVR-Systeme, Benutzerinformationen in Reaktion auf eine Anforderung oder kommunizierte Informationen beziehen, die sich auf einen Anrufkontext beziehen. Mit anderen Worten kann das Betriebssystem 122 „untertitelbare“ Audiodaten basierend auf Metadaten identifizieren und ein Untertiteln aller Audiodaten unterlassen. Einige Metadatenbeispiele beinhalten einen Kontextindikator, der die Art eines Sprachanrufs oder eines Videoanrufs spezifiziert. Der Audiomischer kann den Kontextindikator nutzen, um Routing, Fokus und Untertitelentscheidungen hinsichtlich der Audiodaten zu steuern.
Einige Computergeräte können einen Sprachanruf oder einen Videoanruf transkribieren. Die Transkription liefert jedoch im Allgemeinen eine direkte Transkription der hörbaren Teile des Anrufs und kann nicht ermitteln, ob die Konversation auswählbare Optionen eines IVR-Systems, eine Anfrage nach Benutzerinformationen oder kommunizierte Informationen in Bezug auf den Anrufkontext beinhaltet. Der Benutzer muss weiterhin das Transkript lesen, um die gewünschte Menüoption, die angeforderte Benutzerinformation oder die übermittelte Information zu ermitteln. Daher kann der Benutzer auch dann, wenn das Computergerät eine Transkription bereitstellt, es weiterhin schwierig finden, das IVR-System zu navigieren und die gewünschte Option auszuwählen. Im Gegensatz dazu unterstützen die beschriebenen Systeme und Techniken Benutzer bei der Navigation von IVR-Systemen, stellen Benutzerinformationen in Reaktion auf eine Anforderung bereit oder verwalten kommunizierte Informationen von Sprachanrufen und Videoanrufen durch Anzeigen von auswählbaren Bedienelementen und Nachrichtenelementen mit den relevanten Informationen.
Das Computergerät 202 beinhaltet außerdem einen oder mehrere Sensoren 214. Die Sensoren 214 erhalten Kontextinformationen, die indikativ für eine physische Betriebsumgebung des Computergeräts 202 oder Charakteristika des Computergeräts 202 sind, während es in einer physischen Betriebsumgebung arbeitet. Das Untertitelmodul 210 kann beispielsweise diese Kontextinformationen als Metadaten verwenden, um die Audiodatenverarbeitung zu fokussieren. Beispiele für die Sensoren 214 beinhalten Bewegungssensoren, Temperatursensoren, Positionssensoren, Näherungssensoren, Umgebungslichtsensoren, Feuchtigkeitssensoren, Drucksensoren und dergleichen.
Im Betrieb ermittelt das Betriebssystem 122 oder das Untertitelmodul 210, ob die Audiodaten für Untertitelung bestimmt sind. Das Untertitelmodul 210 kann zum Beispiel ermitteln, ob die Audiodaten auswählbare Optionen eines IVR-Systems, eine Anfrage nach Benutzerinformationen oder kommunizierte Informationen in Verbindung mit dem Anrufkontext beinhalten. In Reaktion auf das Ermitteln, dass die Audiodaten für Untertitelung vorgesehen sind, ermittelt das Betriebssystem 122 die Audiodatenbeschreibung. Beispielsweise kann das Betriebssystem 122 ein maschinell erlerntes Modell ausführen (z. B. ein automatisches rekurrentes Ende-zu-Ende neurales Netzwerk-Umformer-Spracherkennungsmodell), das darauf trainiert ist, Beschreibungen hörbarer Teile von Sprachanrufen oder Videoanrufen zu erzeugen. Das maschinell erlernte Modell kann eine beliebige Art von Modell sein, das zum Erlernen von Beschreibungen von Klängen geeignet ist, einschließlich Transkriptionen für gesprochenes Audio. Das vom Betriebssystem 122 verwendete maschinell erlernte Modell kann kleiner und weniger komplex sein als andere maschinell erlernte Modelle, da es nur trainiert werden muss, um hörbare Teile von Sprachanrufen und Videoanrufen zu identifizieren. Das maschinell erlernte Modell kann die Verarbeitung aller Audiodaten, die an den Audiomischer 208 gesendet werden, vermeiden. Auf diese Weise können die beschriebenen Systeme und Techniken die Nutzung von Remote-Verarbeitungsressourcen (z. B. eines maschinell erlernten Modells auf einem Remote-Computergerät) vermeiden, um unnötige Datenschutzrisiken und potenzielle Verarbeitungslatenzen zu vermeiden.
Indem auf ursprüngliche Audiodaten anstelle von Audiosignalen zurückgegriffen wird, die von der Audiokomponente 116 erzeugt werden, kann das maschinell erlernte Modell Beschreibungen erzeugen, die die hörbaren Teile von Sprachanrufen und Videoanrufen genauer darstellen. Durch Ermitteln, ob Audiodaten zur Untertitelung dienen, bevor das maschinell erlernte Modell genutzt wird, kann das Betriebssystem 122 eine Ressourcenverschwendung aufgrund von Überanalysieren aller Audiodaten, die durch die Kommunikationsanwendung 124 ausgegeben werden, vermeiden. Diese Untertitelungsermittlung ermöglicht dem Computergerät 202, ein effizienteres, kleineres und weniger komplexes maschinell erlerntes Modell auszuführen. Auf diese Weise kann das maschinell erlernte Modell automatische Spracherkennungs- und automatische Tonklassifikationstechniken lokal durchführen, um den Datenschutz aufrecht zu erhalten.
Das Betriebssystem 122 empfängt die Beschreibung aus dem maschinell erlernten Modell und zeigt sie unter Nutzung der Anzeigekomponente 118 an. Die Anzeigekomponente 118 kann auch andere visuelle Elemente (z. B. auswählbare Bedienelemente, die es dem Benutzer ermöglichen, eine Aktion auf dem Computergerät 202 auszuführen) in Verbindung mit den Beschreibungen anzeigen. Das Betriebssystem 122 kann beispielsweise die visuellen Elemente (z. B., die auswählbaren Bedienelemente 134) als Teil der Benutzeroberfläche 126 präsentieren. Eine Beschreibung kann Transkriptionen oder eine Zusammenfassung der hörbaren Teile (z. B. das Telefongespräch) von Sprachanrufen und Videoanrufen beinhalten. Die Beschreibungen können auch einen Kontext für die hörbaren Teile der Audiodaten identifizieren. Die Einzelheiten und die Funktionsweise des maschinell erlernten Modells werden anhand von 3 näher beschrieben.
3 veranschaulicht ein Beispieldiagramm 300 eines maschinell erlernten Modells 302 des Computergeräts 202, das Textbeschreibungen für auswählbare Bedienelemente in Reaktion auf ein IVR-System bereitstellen kann. In anderen Implementierungen kann das Computergerät 202 das Computergerät 102 von 1 oder ein ähnliches Computergerät sein.
Wie in 3 veranschaulicht, kann das maschinell erlernte Modell 302 Teil des Untertitelmoduls 210 sein. Das maschinell erlernte Modell 302 kann Audiodaten 304 in die Textbeschreibungen 306 (z. B. Textbeschreibungen von auswählbaren Optionen, die vom IVR-System 110 bereitgestellt werden) der hörbaren Teile eines Sprachanrufs oder eines Videoanrufs umwandeln, ohne die Audiodaten 304 in Ton umzuwandeln. Die Audiodaten 304 können verschiedene Arten, Formen oder Variationen von Daten von der Kommunikationsanwendung 124 beinhalten. Die Audiodaten 304 können beispielsweise Rohdaten, vorgemischte Audiobytestromdaten oder verarbeitete Bytestromdaten beinhalten. Das maschinell erlernte Modell 302 kann mehrere Arten von maschinell erlernten Modellen beinhalten, die zu einem einzigen Modell kombiniert sind, das die Beschreibungen 306 in Reaktion auf die Audiodaten 304 bereitstellt.
Anwendungen, einschließlich der Kommunikationsanwendung 124, können das maschinell erlernte Modell 302 verwenden, um die Audiodaten 304 in die Textbeschreibungen 306 zu verarbeiten. Zum Beispiel kann die Kommunikationsanwendung 124 über das Betriebssystem 122 oder das Untertitelmodul 210 mit dem maschinell erlernten Modell 302 unter Nutzung einer Anwendungsprogrammierschnittstelle (Application Programming Interface, API) (z. B. eine über alle Anwendungen hinweg gemeinsame, öffentliche API) kommunizieren. In einigen Implementierungen kann das maschinell erlernte Modell 302 die Audiodaten 304 innerhalb eines sicheren Abschnitts oder einer sicheren Enklave des Betriebssystems 122 oder der CRM 206 verarbeiten, um die Benutzerprivatsphäre und -sicherheit zu gewährleisten.
Das maschinell erlernte Modell 302 kann Folgerungen ziehen. Insbesondere kann das maschinell erlernte Modell 302 trainiert werden, um die Audiodaten 304 als eine Eingabe zu empfangen und als Ausgabedaten die Textbeschreibungen 306 der hörbaren Teile eines Anrufs bereitzustellen. Durch Ausführen einer Folgerung unter Nutzung des maschinell erlernten Modells 302 kann das Untertitelmodul 210 die Audiodaten 304 lokal verarbeiten. Das maschinell erlernte Modell 302 kann Klassifizierung, Regression, Clusterbildung, Erkennung von Anomalien, Erzeugung von Empfehlungen und andere Aufgaben durchführen.
Techniker können das maschinell erlernte Modell 302 unter Nutzung von beaufsichtigten Lerntechniken trainieren. Zum Beispiel können Techniker das maschinell erlernte Modell 302 unter Nutzung von Trainingsdaten 308 (z. B. Wahrheitsdaten) trainieren, die Beispiele für Beschreibungen beinhalten, die aus Beispielen für Audiodaten 304 aus einer Reihe von Sprachanrufen und Videoanrufen gefolgert wurden. Die Folgerungen können manuell von Technikern oder anderen Experten durchgeführt, durch Crowd-Sourcing erzeugt oder durch andere Techniken (z. B. komplexe Spracherkennungs- und Inhaltserkennungsalgorithmen) bereitgestellt werden. Die Trainingsdaten 308 können Audiodaten von Sprachanrufen und Videoanrufen zu den Audiodaten 304 beinhalten. Als ein Beispiel wird angenommen, dass die Audiodaten 304 einen Sprachanruf mit einem IVR-System beinhalten, das von einer Arztpraxis genutzt wird. Die Trainingsdaten 308 für das maschinell erlernte Modell 302 können viele Audiodateien aus einer breiten Palette von Sprachanrufen und Videoanrufen mit IVR-Systemen beinhalten. Als ein weiteres Beispiel wird angenommen, dass die Audiodaten 304 einen Sprachanruf mit einem Kundenberater eines Geschäfts beinhalten. Die Trainingsdaten 308 können viele Audiodatendateien aus einer breiten Palette ähnlicher Sprachanrufe und Videoanrufe beinhalten. Techniker können das maschinell erlernte Modell 302 auch unter Nutzung von unbeaufsichtigten Lerntechniken trainieren.
Das maschinell erlernte Modell 302 kann in einem Trainingscomputersystem trainiert und dann zur Speicherung und Implementierung in einem oder mehreren Computergeräten 202 bereitgestellt werden. Das Trainingscomputersystem kann zum Beispiel einen Modelltrainer beinhalten. Das Trainingscomputersystem kann in dem Computergerät 202 enthalten oder davon getrennt sein, das das maschinell erlernte Modell 302 implementiert.
Techniker können das maschinell erlernte Modell 302 auch online oder offline trainieren. Bei dem Offline-Training (z. B. Batch-Lernen) trainieren Techniker das maschinell erlernte Modell 302 an der Gesamtheit eines statischen Satzes der Trainingsdaten 308. Bei dem Online-Lernen trainieren Techniker das maschinell erlernte Modell 302 kontinuierlich, wenn neue Trainingsdaten 308 verfügbar werden (z. B. während das maschinell erlernte Modell 302 auf dem Computergerät 202 verwendet wird, um Folgerungen durchzuführen). Zum Beispiel können Techniker das maschinell erlernte Modell 302 zunächst trainieren, um Beschreibungen zu replizieren, die auf hörbare Teile von Sprachanrufen und Videoanrufen angewendet werden (z. B. untertitelte IVR-Systeme, untertitelte Telefongespräche). Da das maschinell erlernte Modell 302 die Textbeschreibungen 306 aus den Audiodaten 304 folgert, kann das Computergerät 202 die Textbeschreibungen 306 (und die entsprechenden Teile der Audiodaten 304) als neue Trainingsdaten 308 an das maschinell erlernte Modell 302 zurückführen. Auf diese Weise kann das maschinell erlernte Modell 302 die Genauigkeit der Textbeschreibungen 306 kontinuierlich verbessern. In einigen Implementierungen kann ein Benutzer des Computergeräts 202 eine Eingabe an das maschinell erlernte Modell 302 bereitstellen, um eine bestimmte Beschreibung als fehlerhaft zu markieren. Das Computergerät 202 kann diese Markierung verwenden, um das maschinell erlernte Modell 302 zu trainieren und zukünftige Vorhersagen zu verbessern.
Techniker oder Trainer können ein zentralisiertes Training von mehreren maschinell erlernten Modellen 302 durchführen (z. B. basierend auf einem zentral gespeicherten Datensatz). In anderen Implementierungen kann der Trainer oder Techniker dezentrale Trainingstechniken verwenden, einschließlich verteiltem Training oder gemeinsamem Lernen, um das maschinell erlernte Modell 302 zu trainieren, zu aktualisieren oder zu personalisieren. Der Techniker kann möglicherweise Benutzerinformationen nur zur Personalisierung des maschinell erlernten Modells 302 verwenden, nachdem er eine explizite Erlaubnis von einem Benutzer erhalten hat. Beispielsweise können individuellen Benutzern in Situationen, in denen das Computergerät 202 Benutzerinformationen sammeln kann, eine Möglichkeit bereitgestellt werden, Eingaben bereitzustellen, um zu steuern, ob das maschinell erlernte Modell 302 die Benutzerinformationen sammeln und verwenden kann. Den einzelnen Benutzern kann ferner eine Möglichkeit zur Steuerung bereitgestellt werden, was die Programme oder Merkmale mit den Benutzerinformationen tun können und was nicht.
Das maschinell erlernte Modell 302 kann ein oder mehrere künstliche neuronale Netzwerke beinhalten. In einer solchen Implementierung kann das maschinell erlernte Modell 302 eine Gruppe von verbundenen oder nicht vollständig verbundenen Knoten (z. B. Neuronen) beinhalten. Techniker können das maschinell erlernte Modell 302 auch in eine oder mehrere Schichten (z. B. ein tiefes Netzwerk) organisieren. In einer Implementierung eines tiefen Netzwerks kann das maschinell erlernte Modell 302 eine Eingabeschicht, eine Ausgabeschicht und eine oder mehrere verborgene Schichten umfassen, die zwischen der Eingabeschicht und der Ausgabeschicht angeordnet sind.
Das maschinell erlernte Modell 302 kann ein oder mehrere rekurrente neuronale Netzwerke beinhalten. Beispielsweise kann das maschinell erlernte Modell 302 ein rekurrentes Ende-zu-Ende neuronales Netzwerk-Umformer-Spracherkennungsmodell sein. Beispiele für rekurrente neuronale Netzwerke sind rekurrente neuronale lange Kurzzeitspeicher-(Long Short-Term Memory, LSTM-)Netzwerke, gategesteuerte rekurrente Einheiten, bidirektionale rekurrente neuronale Netzwerke, zeitkontinuierliche rekurrente neuronale Netzwerke, neuronale Historiekompressoren, Echozustandsnetzwerke, Elman-Netzwerke, Jordan-Netzwerke, rekurrente neuronale Netzwerke, Hopfield-Netzwerke, vollständig rekurrente Netzwerke und Sequenz-zu-Sequenz-Konfigurationen.
Zumindest einige der Knoten eines rekurrenten neuronalen Netzwerks können einen Zyklus bilden. Das maschinell erlernte Modell 302 kann, wenn es als ein rekurrentes neuronales Netzwerk konfiguriert ist, insbesondere zum Verarbeiten von Eingabedaten sequenzieller Natur nützlich sein (z. B. der Audiodaten 304). Ein rekurrentes neuronales Netzwerk kann Informationen von einem vorherigen Abschnitt der Audiodaten 304 unter Nutzung von rekurrenten oder gerichteten zyklischen Knotenverbindungen an einen nachfolgenden Abschnitt der Audiodaten 304 weitergeben oder einbehalten.
Die Audiodaten 304 können auch Zeitreihendaten beinhalten (z. B. Klangdaten im Vergleich zur Zeit). Das maschinell erlernte Modell 302 kann als ein rekurrentes neuronales Netzwerk die Audiodaten 304 im Verlauf der Zeit analysieren, um gesprochene Klänge und nicht gesprochene, aber relevante, Klänge zum Erzeugen der Textbeschreibungen 306 zumindest eines Teils der Audiodaten 304 zu erkennen oder vorherzusagen. Beispielsweise können die sequenziellen Klänge aus den Audiodaten 304 auf gesprochene Wörter in einem Satz (z. B. Verarbeitung natürlicher Sprache, Spracherkennung oder - verarbeitung) hinweisen.
Das maschinell erlernte Modell 302 kann auch ein oder mehrere faltungsneuronale Netzwerke beinhalten. Ein faltungsneuronales Netzwerk kann eine oder mehrere Faltungsschichten beinhalten, die Faltungen über Eingabedaten unter Nutzung von erlernten Filtern oder Kernels durchführen. Techniker verwenden in der Regel faltungsneuronale Netzwerke, um visuelle Probleme in Standbildern oder Videos zu diagnostizieren. Techniker können auch faltungsneuronale Netzwerke auf die Verarbeitung der Audiodaten 304 in natürlicher Sprache anwenden, um die Textbeschreibungen 306 zu erzeugen.
Dieses Dokument beschreibt die Operationen des Untertitelmoduls 210 und des maschinell erlernten Modells 302 mit mehr Einzelheiten in Bezug auf 4.
BEISPIELHAFTE VERFAHREN
4 veranschaulicht ein Flussdiagramm von exemplarischen Operationen 400 eines Computergeräts, das auswählbare Bedienelemente und Benutzerdaten in Verbindung mit Sprachanrufen und Videoanrufen bereitstellen kann. Die Operationen 400 sind nachfolgend im Kontext von Computergerät 202 von 2 beschrieben. In anderen Implementierungen kann das Computergerät 202 das Computergerät 102 von 1 oder ein ähnliches Computergerät sein. Die Operationen 400 können in einer anderen Reihenfolge als in 4 gezeigt durchgeführt werden, oder mit zusätzlichen oder weniger Operationen.
Bei 402 erhält das Computergerät optional Inhalte, die Benutzerinformationen eines Computergerätbenutzers beinhalten. Das Computergerät kann die Benutzerinformationen nutzen, um dem Benutzer zu helfen, angeforderte Informationen abzurufen oder kommunizierte Informationen in Bezug auf Sprachanrufe und Videoanrufe zu speichern. Bevor es die Benutzerinformationen erhält oder die nachfolgend beschriebenen Optionen durchführt, kann das Computergerät 202 die Zustimmung des Benutzers zur Verwendung der Benutzerinformationen für Sprachanrufe und Videoanrufe erhalten. Das Computergerät 202 kann beispielsweise möglicherweise Benutzerinformationen nur nach Erhalt der ausdrücklichen Zustimmung verwenden. Das Computergerät 202 kann die Benutzerinformationen von Benutzereingaben in eine Anwendung auf dem Computergerät 202 erhalten (z. B. Eingabe von Kontaktinformationen in ein Benutzerprofil, Eingabe einer Kontonummer über eine Drittanwendung) oder Erlernen derselben von Informationen, die in einer Anwendung empfangen wurden (z. B. eine Kontonummer, die in einem E-Mail-Auszug enthalten ist, gespeicherte Kalendereinträge).
Bei 404 zeigt das Computergerät eine grafische Benutzeroberfläche einer Kommunikationsanwendung an. Das Computergerät 202 kann beispielsweise die Anzeigekomponente 118 anweisen, die Benutzeroberfläche 126 für die Kommunikationsanwendung 124 in Reaktion darauf darzustellen, dass der Benutzer einen Sprachanruf oder einen Videoanruf ausführt oder empfängt.
Bei 406 erhält das Computergerät Audiodaten, die von der auf dem Computergerät ausgeführten Kommunikationsanwendung ausgegeben werden. Die Audiodaten umfassen hörbare Teile eines Sprachanrufs oder eines Videoanrufs. Die Kommunikationsanwendung 124 ermöglicht es beispielsweise einem Benutzer des Computergeräts 202, Sprachanrufe und Videoanrufe zu tätigen und zu empfangen. Der Audiomischer 208 erhält die Audiodaten 304, die von der Kommunikationsanwendung 124 während der Sprachanrufe und Videoanrufe ausgegeben werden. Die Audiodaten 304 beinhalten hörbare Teile eines Sprachanrufs oder eines Videoanrufs zwischen einem Benutzer des Computergeräts 202 und einem Dritten. Um dem Benutzer während des Sprachanrufs oder des Videoanrufs auswählbare Bedienelemente und andere Informationen bereitzustellen, kann das Untertitelmodul 210 die Audiodaten 304 aus dem Audiomischer 208 extrahieren.
Bei 408 ermittelt das Computergerät unter Nutzung der hörbaren Teile des Sprachanrufs oder Videoanrufs, ob die Audiodaten relevante Informationen beinhalten. Bei den relevanten Informationen kann es sich um zwei oder mehr auswählbare Optionen eines IVR-Systems (z. B. Telefonbaumoptionen), um eine Anfrage nach Benutzerinformationen (z. B. eine Anfrage nach Kreditkartennummer, Adresse, Kontonummer) oder um übermittelte Informationen (z. B. Terminangaben, Kontaktinformationen, Kontoinformationen) handeln. Das Untertitelmodul 210 kann beispielsweise unter Nutzung des maschinell erlernten Modells 302 ermitteln, ob die Audiodaten 304 relevante Informationen beinhalten. Die relevanten Informationen können zwei oder mehr auswählbare Optionen eines IVR-Systems, eine Anforderung von Benutzerinformationen oder übermittelte Informationen umfassen. Der Benutzer oder der Dritte stellt die relevanten Informationen während des Sprach- oder Videoanrufs hörbar bereit. Das Untertitelmodul 210 oder das maschinell erlernte Modell 302 kann Audiodaten 304 herausfiltern, die keine Verarbeitung erfordern, einschließlich Benachrichtigungsgeräuschen und Hintergrundgeräuschen. Beispiele für das maschinell erlernte Modell 302, das ermittelt, ob die Audiodaten 304 zwei oder mehr auswählbare Optionen beinhalten, sind in 6A und 8A dargestellt. Beispiele für das maschinell erlernte Modell 302, das ermittelt, ob die Audiodaten 304 eine Anforderung von Benutzerinformationen beinhalten, sind in 6B, 6C, 7A und 8B dargestellt. Beispiele für das maschinell erlernte Modell 302, das ermittelt, ob die Audiodaten 304 kommunizierte Informationen beinhalten, sind in 6D, 7B, 7C und 8C dargestellt.
Wenn die Audiodaten keine relevanten Informationen beinhalten, zeigt das Computergerät bei 416 die Benutzeroberfläche für die Kommunikationsanwendung an. In Reaktion auf das Ermitteln, dass die Audiodaten 304 keine relevanten Informationen beinhalten, zeigt das Computergerät 202 beispielsweise die Benutzeroberfläche 126 der Kommunikationsanwendung 124 an.
Wenn das Computergerät ermittelt, dass die Audiodaten relevante Informationen beinhalten, ermittelt das Computergerät bei 410 eine Textbeschreibung der relevanten Informationen. Die Textbeschreibung transkribiert die relevanten Informationen. Das Untertitelmodul 210 kann beispielsweise das maschinell erlernte Modell 302 verwenden, um Spracherkennung an den Audiodaten 304 durchzuführen und eine Textbeschreibung 306 der relevanten Informationen zu ermitteln. Die Textbeschreibung 306 stellt eine Transkription von zumindest einem Teil der zwei oder mehr auswählbaren Optionen, der Anforderung von Benutzerinformationen oder der kommunizierten Informationen bereit. Beispiele für das maschinell erlernte 302, das die Textbeschreibung 306 der zwei oder mehr auswählbaren Optionen ermittelt, sind in den 6A und 8A dargestellt. Beispiele für das maschinell erlernte Modell 302, das die Textbeschreibung 306 der Anforderung von Benutzerinformationen ermittelt, sind in 6B, 6C, 7A und 8B dargestellt. Beispiele für das maschinell erlernte Modell 302, das die Textbeschreibung der übermittelten Informationen ermittelt, sind in 6D, 7B, 7C und 8C dargestellt.
Das Untertitelmodul 210 kann die Genauigkeit der Textbeschreibung 306 auf verschiedene Weise verbessern, einschließlich durch tendenziöses Beeinflussen des maschinell erlernten Modells 302 basierend auf Kontexten des Computergeräts 202. Das Untertitelmodul 210 kann beispielsweise das maschinell erlernte Modell 302 basierend auf der Identität des Dritten im Sprachanruf oder Videoanruf tendenziös beeinflussen. Berücksichtigen wir, dass der Benutzer des Computergeräts 202 eine Arztpraxis anruft. Das Untertitelmodul 210 kann das maschinell erlernte Modell 302 unter Nutzung üblicher Wörter aus einem Arztpraxisgespräch tendenziös beeinflussen. Auf diese Weise kann das Computergerät 202 die Textbeschreibungen 306 für diesen Sprachanruf verbessern. Das Untertitelmodul 210 kann andere kontextbezogene Informationstypen, einschließlich von einem Sensor 214 abgeleitete Standortinformationen und Informationen von anderen Anwendungen, verwenden, um das maschinell erlernte Modell 302 tendenziös zu beeinflussen.
In einigen Implementierungen kann das Computergerät 202 die Textbeschreibung 306 in eine andere Sprache übersetzen, bevor sie angezeigt wird. Das Untertitelmodul 210 kann beispielsweise vom Betriebssystem 122 eine bevorzugte Sprache des Benutzers ermitteln und die Textbeschreibung 306 in die bevorzugte Sprache übersetzen. Auf diese Weise kann ein japanischer Benutzer die Textbeschreibung 306 auf Japanisch betrachten, auch wenn die Audiodaten 304 in einer anderen Sprache vorliegen (z. B. Chinesisch oder Englisch).
Bei 412 identifiziert das Computergerät optional Benutzerdaten in Reaktion auf die Benutzerinformationen. Das Computergerät führt diese Operation nicht durch, wenn die Audiodaten keine Anfrage nach Benutzerinformationen beinhalten. Beispielsweise kann das Computergerät 202 in Reaktion auf das Ermitteln, dass der Dritte Benutzerinformationen angefordert hat, Benutzerdaten in Reaktion auf Benutzerinformationsanforderungen identifizieren. Das Computergerät 202 kann die Benutzerdaten von den CRM 206, der Kommunikationsanwendung 124, einer anderen Anwendung auf dem Computergerät 202 oder entfernten Computergeräten, die mit dem Benutzer oder dem Computergerät 202 assoziiert sind, abrufen. Betrachten wir das zuvor genannte Arztpraxis- Anrufszenario. Ein Empfangsmitarbeiter für die Arztpraxis kann die Bereitstellung der Versicherungsinformationen durch den Benutzer anfordern. In Reaktion darauf kann das Computergerät 202 den Krankenversicherungsanbieter und die Benutzerkontonummer aus einer E-Mail abrufen, die zuvor vom Benutzer empfangen und auf dem Computergerät 202 gespeichert wurde. Beispiele für das Computergerät 202, das die Benutzerdatenantwort auf die Anfrage nach Benutzerinformationen identifiziert, sind in 6B, 6C, 7A und 8B dargestellt.
Womöglich nutzt das Computergerät die Informationen, mit denen es auf die Benutzerinformationsanforderung reagieren würde, jedoch nur, nachdem das Computergerät eine ausdrückliche Erlaubnis von einem Benutzer des Computergeräts empfängt. In zuvor besprochenen Situationen, in denen das Computergerät Benutzerdaten sammelt, kann dem einzelnen Benutzer beispielsweise eine Möglichkeit zur Bereitstellung von Eingaben bereitgestellt werden, um die Erfassung und Nutzung der Daten durch Programme oder Merkmale des Computergeräts zu steuern. Den einzelnen Benutzern kann ferner eine Möglichkeit zur Steuerung bereitgestellt werden, was die Programme oder Merkmale mit den Benutzerdaten tun können und was nicht.
Bei 414 zeigt das Computergerät die Benutzerdaten oder auswählbaren Bedienelemente an. Die auswählbaren Bedienelemente sind vom Benutzer auswählbar und umfassen die Textbeschreibung. Es sei angenommen, dass die Audiodaten eine Anfrage nach Benutzerinformationen enthalten. In diesem Szenario kann das Computergerät die identifizierten Benutzerdaten anzeigen. Es sei angenommen, dass die Audiodaten zwei oder mehr auswählbare Optionen eines IVR-Systems beinhalten. In diesem Szenario kann der Benutzer die auswählbaren Bedienelemente verwenden, um dem Dritten eine ausgewählte Option aus den zwei oder mehr auswählbaren Optionen anzuzeigen. Es sei angenommen, dass die Audiodaten übermittelte Informationen beinhalteten. In diesem Szenario kann der Benutzer die auswählbaren Bedienelemente verwenden, um die übermittelten Informationen im Computergerät, der Kommunikationsanwendung oder einer anderen Anwendung zu speichern. Das Computergerät 202 kann beispielsweise die Anzeigekomponente 118 veranlassen, die Benutzerdaten oder die auswählbaren Bedienelemente 134 anzuzeigen. Die Anzeigekomponente 118 kann die Benutzerdaten als Textbenachrichtigung auf der Benutzeroberfläche 126 bereitstellen. Betrachten wir das zuvor genannte Arztpraxis- Anrufszenario. Die Anzeigekomponente 118 kann den Krankenversicherungsanbieter und die Benutzerkontoinformationen als ein Textfeld auf der Benutzeroberfläche 126 während der Sprachverbindung anzeigen. Die Anzeigekomponente 118 kann auch die auswählbaren Bedienelemente 134 bereitstellen. Die Anzeigekomponente 118 kann die Textbeschreibung 306 oder die angeforderten Informationen als Teil einer Schaltfläche auf der Benutzeroberfläche 126 für die Kommunikationsanwendung 124 bereitstellen. Beispiele für die Anzeigekomponente 118, die das auswählbare Bedienelement 134 anzeigt, sind in 6A und 8A dargestellt. Beispiele für die Anzeigekomponente 118, die Benutzerdaten anzeigt, sind in 6B, 6C, 7A und 8B dargestellt. Beispiele für die Anzeigekomponente 118, die das auswählbare Bedienelement 134 und Benutzerdaten in Reaktion auf übermittelte Informationen anzeigt, sind in 6D, 7B, 7C und 8C dargestellt.
Bedenken wir die Arztpraxis, die das IVR-System 110 verwendet, um den Sprachanruf an den Empfangsmitarbeiter zu leiten. Die Anzeigekomponente 118 kann auswählbare Bedienelemente 134 anzeigen. Die auswählbaren Bedienelemente 134 stellen eine entsprechende Textbeschreibung 318 von zwei oder mehr auswählbaren Optionen bereit, die vom IVR-System 110 bereitgestellt werden. Der Benutzer kann die auswählbaren Bedienelemente 134 verwenden, um der Arztpraxis eine aus den zwei oder mehr auswählbaren Optionen ausgewählte Option anzuzeigen.
Berücksichtigen wir auch, dass der Benutzer einen Termin in der Arztpraxis plant. Die Anzeigekomponente 118 kann das auswählbare Bedienelement 134 anzeigen. Das auswählbare Bedienelement 134 beinhaltet die Textbeschreibung des Termins. Der Benutzer kann das auswählbare Bedienelement 134 verwenden, um die Termindetails in einer Kalenderanwendung zu speichern.
Bei 416 zeigt das Computergerät die Benutzeroberfläche für die Kommunikationsanwendung an. Die Anzeigekomponente 118 kann beispielsweise die Benutzeroberfläche 126 anzeigen, die mit der Kommunikationsanwendung 124 assoziiert ist. Die Benutzeroberfläche 126 kann die Benutzerdaten und auswählbare Bedienelemente 134 beinhalten.
5 veranschaulicht exemplarische Operationen 500, um auswählbare Bedienelemente für IVR-Systeme bereitzustellen. Die Operationen 500 sind nachfolgend im Kontext von Computergerät 202 von 2 beschrieben. Die Operationen 500 können in einer anderen Reihenfolge oder mit zusätzlichen oder weniger Operationen durchgeführt werden.
Bei 502 erhält ein Computergerät Audiodaten, die von einer auf dem Computergerät ausgeführten Kommunikationsanwendung ausgegeben werden. Die Audiodaten umfassen hörbare Teile eines Sprachanrufs oder eines Videoanrufs zwischen einem Benutzer des Computergeräts und einem Dritten. Der Audiomischer 208 des Computergeräts 202 kann beispielsweise Audiodaten 304 erhalten, die von der Kommunikationsanwendung 124 ausgegeben werden, die auf dem Computergerät 202 ausgeführt wird. Das Untertitelmodul 210 kann die Audiodaten 304 vom Audiomischer 208 empfangen. Die Audiodaten 304 beinhalten hörbare Teile eines Sprachanrufs oder eines Videoanrufs zwischen einem Benutzer des Computergeräts 202 und einem Dritten (z. B. einer Person, einem computerisierten IVR-System).
Bei 504 ermittelt das Computergerät unter Nutzung der hörbaren Teile, ob die Audiodaten zwei oder mehr auswählbare Optionen beinhalten. Der Dritte stellt die zwei oder mehr auswählbaren Optionen während des Sprachanrufs oder des Videoanrufs hörbar bereit. Das maschinell erlernte Modell 302 des Untertitelmoduls 210 kann beispielsweise unter Nutzung der hörbaren Teile der Audiodaten 304 ermitteln, ob die Audiodaten 304 zwei oder mehr auswählbare Optionen beinhalten (z. B. nummerierte Optionen eines IVR-Menüs oder Telefonbaums). Der Dritte stellt die zwei oder mehr auswählbaren Optionen während des Sprachanrufs oder des Videoanrufs hörbar bereit.
Bei 506 ermittelt das Computergerät in Reaktion auf das Ermitteln, dass die Audiodaten die zwei oder mehr auswählbaren Optionen beinhalten, eine Textbeschreibung der zwei oder mehr auswählbaren Optionen. Die Textbeschreibung liefert eine Transkription von zumindest einem Teil der zwei oder mehr auswählbaren Optionen. In Reaktion auf das Ermitteln, dass die Audiodaten 304 die zwei oder mehr auswählbaren Optionen beinhalten, ermittelt das maschinell erlernte Modell 302 beispielsweise eine Textbeschreibung 306 der zwei oder mehr auswählbaren Optionen. Die Textbeschreibung 306 stellt eine Transkription von zumindest einem Teil der zwei oder mehr auswählbaren Optionen bereit. In einigen Implementierungen beinhaltet die Textbeschreibung 306 eine Wort-für-Wort-Transkription der zwei oder mehr auswählbaren Optionen. In anderen Implementierungen stellt die Textbeschreibung 306 eine Paraphrasierung der zwei oder mehr auswählbaren Optionen bereit.
Bei 508 zeigt das Computergerät zwei oder mehr auswählbare Bedienelemente an. Die zwei oder mehr auswählbaren Bedienelemente sind vom Benutzer auswählbar, um dem Dritten eine ausgewählte Option der zwei oder mehr auswählbaren Optionen anzuzeigen. Jedes der zwei oder mehr auswählbaren Bedienelemente stellt die Textbeschreibung einer jeweiligen auswählbaren Option bereit. Die Anzeigekomponente 118 zeigt beispielsweise zwei oder mehr auswählbare Bedienelemente 134 auf der Anzeige des Computergeräts 202 an. Die Anzeige beinhaltet die Benutzeroberfläche 126. Die zwei oder mehr auswählbaren Bedienelemente 134 sind vom Benutzer auswählbar, um dem Dritten eine Anzeige einer ausgewählten Option der zwei oder mehr auswählbaren Optionen bereitzustellen. Jedes der zwei oder mehr auswählbaren Bedienelemente stellt die Textbeschreibung 306 einer entsprechenden auswählbaren Option bereit.
BEISPIELHAFTE IMPLEMENTIERUNGEN
Dieser Abschnitt veranschaulicht exemplarische Implementierungen der beschriebenen Systeme und Techniken, die Benutzer bei Sprachanrufen und Videoanrufen unterstützen können, welche getrennt oder gemeinsam, ganz oder teilweise operieren können. Dieser Abschnitt beschreibt verschiedene exemplarische Implementierungen, die jeweils in Bezug auf eine spezifische Zeichnung zur Erleichterung der Lesbarkeit skizziert sind.
6A-6D stellen exemplarische Benutzeroberflächen eines Computergeräts dar, um Benutzer bei Sprachanrufen und Videoanrufen zu unterstützen. 6A-6D werden nacheinander und im Kontext des Computergeräts 202 von 2 beschrieben. Das Computergerät 202 kann andere Benutzeroberflächen mit weniger oder zusätzlichen Merkmalen bereitstellen als die in 6A-6D dargestellten.
In 6A veranlasst das Computergerät 202 die Anzeigekomponente 118 zum Anzeigen der Benutzeroberfläche 126. Die Benutzeroberfläche 126 ist mit der Kommunikationsanwendung 124 assoziiert. Die Benutzeroberfläche 126 beinhaltet das Anruferfeld 128, das Zifferntastatursymbol 130, das Freisprechsymbol 132, die auswählbaren Bedienelemente 134 und das Anrufendsymbol 136.
Betrachten wir, dass der Benutzer eine Arztpraxis eines neuen medizinischen Anbieters angerufen hat. In dieser Implementierung hat der Benutzer einen Sprachanruf unter Nutzung der Kommunikationsanwendung 124 getätigt. In anderen Implementierungen kann der Benutzer einen Videoanruf unter Nutzung der Kommunikationsanwendung 124 oder einer anderen Anwendung auf dem Computergerät 202 tätigen. Die Anruferbox 128 gibt den Geschäftsnamen (z. B. Arztpraxis) und die Telefonnummer (z. B. (111) 555-1234) des Dritten an. Die Arztpraxis verwendet das IVR-System 110, um ein Menü von auswählbaren Optionen akustisch bereitzustellen. Das IVR-System 110 kann Anrufer an entsprechendes Personal und Mitarbeiter in der Arztpraxis weiterleiten. Betrachten wir, dass das IVR-System 110 den folgenden Dialog bei der Beantwortung des Sprachanrufs bereitstellt: „Danke, dass Sie die Arztpraxis anrufen. Bitte hören Sie sich die folgenden Optionen an und wählen Sie die Option aus, die am besten zum Zweck Ihres heutigen Anrufs passt. Für Wiederholungsrezepte drücken Sie bitte die 1. Um einen Arzttermin zu bekommen, drücken Sie bitte die 2. Für Abrechnungsfragen drücken Sie bitte die 3. Um mit einer Pflegeperson zu sprechen, drücken Sie bitte die 4.“
Da das IVR-System 110 die auswählbaren Optionen akustisch bereitstellt, erhält das Untertitelmodul 210 die Audiodaten 304, die von der Kommunikationsanwendung 124 ausgegeben werden. Wie zuvor beschrieben, kann der Audiomischer 208 die Audiodaten 304 an das Untertitelmodul 210 senden. Das Untertitelmodul 210 ermittelt dann, dass die Audiodaten 304 mehrere auswählbare Optionen beinhalten. In Reaktion auf dieses Ermitteln ermittelt das Untertitelmodul 210 eine Textbeschreibung 306 der auswählbaren Optionen. Zum Beispiel kann das maschinell erlernte Modell 302 zumindest einen Teil der auswählbaren Optionen transkribieren. Die Transkription kann eine Wort-für-Wort-Transkription oder Paraphrasierung jeder der auswählbaren Möglichkeiten sein.
Das Untertitelmodul 210 veranlasst dann die Anzeigekomponente 118, die auswählbaren Bedienelemente 134 auf der Benutzeroberfläche 126 anzuzeigen. Die auswählbaren Bedienelemente 134 beinhalten ein auswählbares Bedienelement, das mit jeder der auswählbaren Optionen assoziiert ist, die durch das IVR-System 110 bereitgestellt werden: ein erstes auswählbares Bedienelement 134-1, ein zweites auswählbares Bedienelement 134-2, ein drittes auswählbares Bedienelement 134-3 und ein viertes auswählbares Bedienelement 134-4. Die auswählbaren Bedienelemente 134 beinhalten die Textbeschreibung 306, die mit einer entsprechenden auswählbaren Option assoziiert ist. Beispielsweise enthält das erste auswählbare Bedienelement 134-1 den Text „1 - Wiederholungsrezepte.“ Die Zahl „1“ gibt an, dass das erste auswählbare Bedienelement 134-1 mit der ersten auswählbaren Option assoziiert ist, die das IVR-System 110 bereitstellt. Das zweite auswählbare Bedienelement 134-2 stellt den Text „2 - Arzttermin“ bereit. Das dritte auswählbare Bedienelement 134-3 zeigt den Text „3 - Abrechnungsfragen“ an. Und das vierte auswählbare Bedienelement 134-4 enthält den Text „4 - Sprechen mit einer Pflegeperson.“ In einigen Implementierungen können die auswählbaren Bedienelemente 134 die mit jeder auswählbaren Option assoziierten Zahlen weglassen.
Wie zuvor beschrieben, können die auswählbaren Bedienelemente 134 in verschiedenen Formen auf der Benutzeroberfläche 126 dargestellt werden. Die auswählbaren Bedienelemente 134 können zum Beispiel Tasten, Schalter, auswählbarer Text, Schieber, Kontrollkästchen oder Symbole sein. Der Benutzer kann ein auswählbares Bedienelement 134 auswählen, um das Computergerät 202 zu veranlassen, dem IVR-System 110 die ausgewählte Option der mehreren auswählbaren Optionen anzuzeigen.
In Reaktion auf das IVR-System 110, das die auswählbaren Optionen bereitstellt, kann der Benutzer das Zifferntastatur-Symbol 130 auswählen, um eine Zifferntastatur anzuzeigen und eine Zahl auszuwählen, die mit der gewünschten auswählbaren Option assoziiert ist. Beispielsweise kann der Benutzer die Nummer „2“ in der Zifferntastatur auswählen, um einen Termin zu bekommen. Als Antwort kann das Computergerät 202 einen DTMF-Ton an das IVR-System 110 senden. In anderen Implementierungen kann das IVR-System 110 es dem Benutzer ermöglichen, die ausgewählte Option bereitzustellen, indem es die Zahl „2“ hörbar spricht. Die beschriebenen Systeme und Techniken ermöglichen es dem Benutzer auch, das auswählbare Bedienelement 134 auszuwählen, das mit der gewünschten Option assoziiert ist. In diesem Beispiel wählt der Benutzer das zweite auswählbare Bedienelement 134-2 aus, um einen neuen Termin zu bekommen. In Reaktion auf die Auswahl des zweiten auswählbaren Bedienelements 134-2 durch den Benutzer veranlasst die Eingabekomponente 120 das Computergerät 202, einen DTMF -Ton, der mit der Nummer „2“ assoziiert ist, oder eine hörbare Mitteilung der Nummer „2“ an das IVR-System 110 zu senden. Auf diese Weise helfen die beschriebenen Systeme und Techniken dem Benutzer, die auswählbaren IVR-Menüoptionen zu navigieren und die gewünschte Option auszuwählen.
In einigen Implementierungen kann das Computergerät 202 eine Reihe von auswählbaren Bedienelementen 134 in Reaktion auf verschiedene Ebenen von IVR-Menüs bereitstellen. Das Computergerät 202 kann die auswählbaren Bedienelemente 134 aktualisieren, um den aktuellen auswählbaren Optionen zu entsprechen. In anderen Implementierungen kann das Computergerät 202 eine Option bereitstellen, um ein vorheriges Menü von auswählbaren Optionen von zuvor im Sprachanruf oder Videoanruf anzuzeigen.
6B ist ein Beispiel für die Benutzeroberfläche 126 in Reaktion auf eine Anforderung von Benutzerinformationen. In Reaktion darauf, dass der Benutzer das zweite auswählbare Bedienelement 134-2 in dem vorherigen Szenario auswählt, leitet das IVR-System 110 den Benutzer an einen Empfangsmitarbeiter bei der Arztstelle. Da der Benutzer ein neuer Patient ist, kann der Empfangsmitarbeiter eine Reihe von Fragen stellen, um ein Konto oder Profil einzurichten, das mit dem Benutzer assoziiert ist. Beispielsweise kann der Empfangsmitarbeiter für den Benutzer Krankenversicherungsinformationen anfordern. In dieser Situation können die Audiodaten 304 die folgende Frage beinhalten: „Sind Sie krankenversichert?“ Das maschinell erlernte Modell 302 kann unter Nutzung von hörbaren Teilen des Sprachanrufs mit der Arztpraxis ermitteln, ob die Audiodaten 304 eine Anfrage nach Benutzerinformationen beinhalten. In diesem Beispiel kann das maschinell erlernte Modell 302 das Wort „Krankenversicherung“ zusammen mit anderen Teilen der Konversation und dem Kontext, dass der Dritte eine Arztpraxis ist, verwenden, um zu ermitteln, dass die Audiodaten 304 eine Anfrage nach Benutzerinformationen beinhalten.
Das maschinell erlernte Modell 302 kann die Textbeschreibung 306 der Anfrage nach Benutzerinformationen als Antwort ermitteln. In diesem Beispiel ermittelt das maschinell erlernte Modell 302 oder das Untertitelmodul 210 die Textbeschreibung 306 „Krankenversicherung“ beinhaltet. Das Untertitelmodul 210 oder das Computergerät 202 kann dann Benutzerdaten identifizieren, die auf die Anfrage nach Krankenversicherungsinformationen in den CRM 206 reagieren und die Anzeigekomponente 118 veranlassen, sie auf der Benutzeroberfläche 126 anzuzeigen. In diesem Beispiel können die Benutzerdaten den Versicherungsanbieter, die Versicherungsnummer oder die Kontokennung beinhalten. Das Computergerät 202 kann auch die Krankenversicherungsinformationen von einer E-Mail in einer E-Mail-Anwendung oder Profilinformationen abrufen, die in einer Kontakteanwendung gespeichert sind. In einigen Implementierungen kann das Computergerät 202 sensible Benutzerdaten von einer sicheren Enklave der CRM 206 oder einem anderen Speicher im Computergerät 202 speichern und abrufen.
Die Anzeigekomponente 118 kann die Benutzerdaten (z. B. Versicherungsanbieter und Versicherungsnummer) in einem Nachrichtenelement 600 auf der Benutzeroberfläche 126 anzeigen. Das Nachrichtenelement 600 kann ein Symbol, eine Benachrichtigung, ein Nachrichtenfeld oder ein ähnliches Benutzeroberflächenelement sein, um Textinformationen anzuzeigen. Das Nachrichtenelement 600 kann auch die Textbeschreibung 306 der Anfrage nach Benutzerinformationen beinhalten, um Kontext bereitzustellen. In diesem Beispiel stellt das Nachrichtenelement 600 den folgenden Text bereit: „Ihre Krankenversicherung: Apex Krankenversicherungsgesellschaft“ und „Ihre Krankenversicherungsnummer: 123456789-0.“ In der dargestellten Implementierung stellt das Nachrichtenelement 600 beide Sätze von Benutzerdaten in einem einzigen Nachrichtenelement 600 bereit. In anderen Implementierungen kann die Anzeigekomponente 118 die Benutzerdaten in mehreren Nachrichtenelementen 604 beinhalten.
Die Anzeigekomponente 118 zeigt das Nachrichtenelement 600 auf der Benutzeroberfläche 126 kurz nach dem Abfragen durch den Empfangsmitarbeiter an. In einigen Implementierungen kann das Computergerät 202 aus den Audiodaten 304 ermitteln, dass der Benutzer ein neuer Patient in der Arztpraxis ist. In Reaktion auf diesen Kontext kann das maschinell erlernte Modell 302 oder das Untertitelmodul 210 voraussehen, dass der Empfangsmitarbeiter nach Krankenversicherungsinformationen fragen und diese Benutzerdaten abrufen wird. In anderen Implementierungen kann das maschinell erlernte Modell 302 oder das Untertitelmodul 210 voraussehen, dass die Krankenversicherungsinformationen angefordert werden können, wenn der Benutzer eine Arztpraxis anruft. In solchen Situationen können die Krankenversicherungsinformationen auf eine Anforderung dieser Informationen hin angezeigt werden.
Das Computergerät 202 kann die Sensoren 214 verwenden, um den Kontext des Computergeräts 202 zu ermitteln. In Reaktion auf das Ermitteln, dass der Benutzer nicht auf die Anzeige blickt, kann das Computergerät 202 die Audiokomponente 116 veranlassen, ein Audiosignal oder eine haptische Rückmeldung bereitzustellen. Das Audiosignal kann den Benutzer darüber informieren, dass Benutzerdaten in Bezug auf eine Benutzerinformationsanfrage angezeigt werden. Wenn das Computergerät 202 beispielsweise ermittelt, dass der Benutzer das Computergerät 202 an seinem Ohr hält (z. B. unter Nutzung eines Näherungssensors, Gyroskops oder Beschleunigungsmessers), kann das Computergerät 202 die Audiokomponente 116 veranlassen, ein Audiosignal (z. B. einen sanften Ton) bereitzustellen, den nur der Benutzer hören kann. In anderen Implementierungen kann das Computergerät 202 haptisches Feedback für den Benutzer als Hinweis bereitstellen.
In Reaktion auf das Lesen des Nachrichtenelements 600 mit den Krankenversicherungsinformationen kann der Benutzer diese Informationen dem Empfangsmitarbeiter hörbar bereitstellen. In einigen Situationen kann sich der Benutzer in einer öffentlichen Umgebung befinden und möchte die Benutzerdaten möglicherweise nicht hörbar bereitstellen. Als Ergebnis kann der Benutzer eines von mehreren auswählbaren Bedienelementen 134 auswählen. Die Anzeigekomponente 118 zeigt ein fünftes auswählbares Bedienelement 134-5 und eine sechstes auswählbares Bedienelement 134-6 an. Das fünfte auswählbare Bedienelement 134-5 beinhaltet den folgenden Text: „Versicherungsanbieter vorlesen.“ Das sechste auswählbare Bedienelement 134-6 beinhaltet den folgenden Text: „Versicherungsnummer vorlesen.“ In Reaktion darauf, dass der Benutzer eines der auswählbaren Bedienelemente 134 auswählt, veranlasst das Computergerät 202 den Audiomischer 208, die entsprechenden Benutzerdaten für den Empfangsmitarbeiter hörbar zu lesen, ohne dass der Benutzer diese Informationen hörbar bereitstellen muss. In anderen Implementierungen kann das Computergerät 202 dem Benutzer zusätzliche auswählbare Bedienelemente 134 zum Versand als E-Mail, Textnachricht oder anderweitig zum Senden der Benutzerdaten (z. B. der Krankenversicherungsinformationen) an den Empfangsmitarbeiter bereitstellen. Auf diese Weise bieten die beschriebenen Techniken und Systeme einen sicheren und privaten Weg, um sensible Benutzerdaten mit einer anderen Person oder Entität während Sprachanrufen und Videoanrufen zu teilen.
In 6C stellt das Computergerät 202 Benutzerdaten in Reaktion auf eine vorgeschlagene Terminzeit bereit. Betrachten wir den vorherigen Sprachanruf an die Arztpraxis. Nachdem der Benutzer seine Krankenversicherungsinformationen zur Verfügung stellt, schlägt der Empfangsmitarbeiter einen Termin am Dienstag um 11:00 Uhr vor. Zum Beispiel beinhalten die Audiodaten 304 die folgende Frage des Empfangsmitarbeiters: „Passt Ihnen der nächste Dienstag um 11:00 Uhr?“ In Reaktion auf die vorgeschlagene Zeit kann das Computergerät 202 Benutzerkalenderinformationen in einer Kalenderanwendung überprüfen und einen möglichen Konflikt identifizieren. In diesem Beispiel hat der Benutzer einen Zahnarzttermin, der am Dienstag um 11:15 Uhr geplant ist. Das Computergerät 202 veranlasst die Anzeigekomponente 118, diese Informationen im Nachrichtenelement 600 anzuzeigen. Zum Beispiel kann die Anzeigekomponente 118 den folgenden Text anzeigen: „Zahnarzttermin um 11:15 Uhr.“ In einigen Implementierungen kann das Computergerät 202 auch automatisch alternative Zeiten basierend auf den Benutzerkalenderinformationen vorschlagen. Die Anzeigekomponente 118 kann den folgenden Text anzeigen: „Sie haben einen Terminkonflikt, versuchen Sie stattdessen diese Zeiten: Dienstag um 9:30 Uhr [oder] Mittwoch um 13:00 Uhr.“ Auf diese Weise hilft das Computergerät 202 dem Benutzer, einen neuen Termin in der Arztpraxis zu planen. Der Benutzer darf den vorab geplanten Zahnarzttermin nicht aufrufen oder die Kalenderanwendung auf dem Computergerät 202 öffnen, während er mit dem Empfangsmitarbeiter spricht. Der Benutzer kann auch vermeiden, die Arztpraxis zurückrufen zu müssen, um den Termin nach dem Bemerken des Konflikts neu zu vereinbaren.
In 6D zeigt das Computergerät 202 kommunizierte Informationen in Verbindung mit dem Sprachanruf an. Betrachten wir den vorherigen Sprachanruf an die Arztpraxis. Der Empfangsmitarbeiter verfügte über eine Terminlücke um 13:00 Uhr am Mittwoch und bestätigte den Termin folgendermaßen: „Wir haben Sie für einen Termin um 13:00 Uhr am Mittwoch, dem 4. November geplant. In Reaktion kann das Computergerät 202 die Anzeigekomponente 118 veranlassen, die Einzelheiten des Termins in dem Nachrichtenelement 600 anzuzeigen: Das Nachrichtenelement 600 kann zum Beispiel die folgenden kommunizierten Informationen bereitstellen: „Mittwoch, 4. November 2020 um 13:00 Uhr, Arzttermin @ Arztpraxis“.
Das Computergerät 202 kann dem Benutzer auch mehrere auswählbare Bedienelemente in Verbindung mit den übermittelten Informationen bereitstellen, einschließlich eines siebten auswählbaren Bedienelements 134-7 und eines achten auswählbaren Bedienelements 134-8. In diesem Beispiel zeigt das siebte auswählbare Bedienelement 134-7 den Text „Speichern im Kalender.“ Wenn ausgewählt, bewirkt das siebte auswählbare Bedienelement 134-7, dass das Computergerät 202 die Termininformationen in der Kalenderanwendung speichert. Das achte auswählbare Bedienelement 134-8 zeigt den Text „Senden an Ehepartner“ an. Wenn ausgewählt, bewirkt das achte auswählbare Bedienelement 134-8, dass das Computergerät 202 die Termininformationen an den Ehepartner sendet. Der Benutzer kann das Computergerät 202 auch mittels hörbarer Befehle veranlassen, die Termininformationen in der Kalenderanwendung zu speichern.
Das Computergerät 202 kann die Anzeigekomponente 118 veranlassen, das Nachrichtenelement 600 und die auswählbaren Bedienelemente 134 in Verbindung mit dem Termin auf der Benutzeroberfläche 126 bis zur Beendigung des Sprachanrufs und für mehrere Minuten danach zu belassen. In anderen Implementierungen kann der Benutzer diese Informationen, einschließlich des Nachrichtenelements 600 und der auswählbaren Bedienelemente, abrufen, indem er das Gespräch mit der Arztstelle in einem Verlaufsmenü der Kommunikationsanwendung 124 auswählt. Auf diese Weise kann der Benutzer übermittelte Informationen aus einem Sprachanruf oder einem Videoanruf speichern, ohne den Termin abzuschreiben, den Termin später zu erinnern oder den Termin separat in die Kalenderanwendung einzugeben. Die Merkmale und Funktionen, die unter Bezugnahme auf die 6A-6D beschrieben wurden, ermöglichen es dem Computergerät 202, ein nutzerfreundlicheres Erlebnis für Sprachanrufe und Videoanrufe bereitzustellen.
7A-7C stellen andere exemplarische Benutzeroberflächen eines Computergeräts dar, um Benutzer bei Sprachanrufen und Videoanrufen zu unterstützen. 7A-7CH werden nacheinander und im Kontext des Computergeräts 202 beschrieben. Das Computergerät 202 kann andere Benutzeroberflächen mit weniger oder zusätzlichen Merkmalen bereitstellen als die in 7A-7C beschriebenen.
Im Beispiel aus 7A veranlasst das Computergerät 202 die Anzeigekomponente, die Benutzeroberfläche 126 anzuzeigen. Betrachten wir, wie der Benutzer einen Sprachanruf unter Nutzung der Kommunikationsanwendung 124 an seine Freundin Amy tätigt. Die Anruferbox 128 stellt den Namen und die Telefonnummer von Amy bereit (z. B. (111) 555-6789). Während des Sprachanrufs fragt Amy den Benutzer nach seiner neuen Adresse. Wie in 7A dargestellt, beinhalten die Audiodaten 304 die folgende Phrase: „Was ist deine neue Adresse?“
In Reaktion auf das Ermitteln, dass die Audiodaten 304 eine Anforderung von Benutzerinformationen beinhalten (z. B. die Benutzeradresse), ermittelt das Computergerät 202 eine Beschreibung der Anforderung. In diesem Beispiel ermittelt das Untertitelmodul 210, dass die Textbeschreibung 306 der Anforderung die Heimatadresse des Benutzers beinhaltet. Das Computergerät 202 findet die Heimatadresse in den CRM 206 und zeigt sie auf der Benutzeroberfläche 126 an. Die Anzeigekomponente 118 kann beispielsweise bewirken, dass ein Nachrichtenelement 700 die Textbeschreibung 306 und die entsprechenden Benutzerdaten bereitstellt. Das Nachrichtenelement 700 stellt die folgenden Informationen bereit: „Ihre Adresse: 100 First Street, San Francisco, CA 94016.“ In den meisten Situationen erinnert der Benutzer wahrscheinlich diese Benutzerdaten, kann aber Hilfe dabei benötigen, bestimmte Details (z. B. die Postleitzahl) abzurufen.
Das Computergerät 202 kann auch bewirken, dass die Anzeigekomponente 118 auswählbare Bedienelemente 702 anzeigt. Der Benutzer kann Amy seine Heimatadresse hörbar bereitstellen. In einigen Situationen kann sich der Benutzer in einer öffentlichen Umgebung befinden und seine Adresse nicht akustisch bereitstellen wollen. Als Ergebnis kann der Benutzer eines der auswählbaren Bedienelemente 702 auswählen. In diesem Beispiel beinhalten die auswählbaren Bedienelemente 702 ein erstes auswählbares Bedienelement 702-1, ein zweites auswählbares Bedienelement 702-2 und ein drittes auswählbares Bedienelement 702-3. Das erste auswählbare Bedienelement 702-1 beinhaltet den folgenden Text: „Meine Adresse vorlesen.“ Wenn ausgewählt, bewirkt das erste auswählbare Bedienelement 702-1, dass der Audiomischer 208 die Heimatadresse Amy hörbar vorliest, ohne dass der Benutzer diese Informationen akustisch bereitstellen muss. Das zweite auswählbare Bedienelement 702-2 beinhaltet den folgenden Text: „Meine Adresse als Textnachricht senden.“ Wenn ausgewählt, veranlasst das zweite auswählbare Bedienelement 702-2 die Kommunikationsanwendung 124 oder eine andere Anwendung, unter Nutzung der Kommunikationseinheiten 116 eine Textnachricht an Amy mit der Heimatadresse zu senden. Das dritte auswählbare Bedienelement 702-3 beinhaltet den folgenden Text: „Meine Adresse per E-Mail versenden.“ Das dritte auswählbare Bedienelement 702-3 veranlasst eine E-Mail-Anwendung, eine E-Mail an Amy mit der Heimatadresse zu senden, wenn es ausgewählt wird. Das Computergerät 202 kann die E-Mail-Adresse für Amy von einer Kontakteanwendung erhalten. Auf diese Weise bietet das Computergerät 202 dem Benutzer einen sicheren Weg, private Benutzerdaten über einen Sprachanruf oder einen Videoanruf zu teilen, ohne sie hörbar für benachbarte Personen zu übertragen.
In 7B zeigt das Computergerät 202 kommunizierte Informationen in Verbindung mit der Sprachverbindung an. Betrachten wir den vorherigen Sprachanruf mit Amy und dass Amy neue Kontaktinformationen bereitstellt (z. B. ihre neue Arbeits-E-Mail-Adresse). Als Antwort stellt das Computergerät 202 die Kommunikationsinformationen dem Benutzer bereit. Das Untertitelmodul 210 ermittelt, dass die Audiodaten 304 beinhalten, dass Amy ihre neue E-Mail-Adresse bereitstellt: „Meine E-Mail-Adresse ist amy@email.com.“ Die Anzeigekomponente 118 zeigt dann die neue E-Mail-Adresse im Nachrichtenelement 702 an. Das Nachrichtenelement stellt folgenden Text bereit: „Amys E-Mail-Adresse: amy@email.com.“
In einigen Implementierungen kann das Computergerät 202 verifizieren, dass die neue E-Mail-Adresse nicht auf dem Computergerät 202 gespeichert ist (z. B. in einer Kontakteanwendung oder einer E-Mail-Anwendung). Wenn die neue E-Mail-Adresse gespeichert wird, kann das Computergerät 202 das Untertitelmodul 210 veranlassen, diese kommunizierten Informationen nicht anzuzeigen. Wenn die neue E-Mail-Adresse nicht gespeichert wird, kann das Computergerät 202 das Untertitelmodul 210 veranlassen, diese kommunizierten Informationen anzuzeigen.
Das Computergerät 202 kann ein viertes auswählbares Bedienelement 702-4 anzeigen. Das vierte auswählbare Bedienelement 702-4 beinhaltet den folgenden Text: „In Kontakten speichern.“ Das vierte auswählbare Bedienelement 702-4 veranlasst das Computergerät 202, die E-Mail-Adresse bei Auswahl in einer Kontakteanwendung zu speichern.
In 7C stellt das Computergerät 202 zusätzliche auswählbare Bedienelemente in Reaktion auf übermittelte Informationen während der Sprachverbindung bereit. Betrachten wir den vorherigen Sprachanruf mit Amy, und dass der Benutzer und Amy sich zum Mittagessen verabreden. Die Audiodaten 304 beinhalten den folgenden Satz, der vom Benutzer hörbar gesprochen wird: „Ich treffe dich in 20 Minuten im Restaurant Mary.“ In Reaktion auf diese übermittelten Informationen kann das Computergerät 202 die Adresse für das Restaurant Mary im Nachrichtenelement 700 anzeigen. Das Nachrichtenelement 702 beinhaltet den folgenden Text: „Adresse für Restaurant Mary, 500 S. 20. Straße, San Francisco, CA 94016“ Das Computergerät 202 kann auch ein fünftes auswählbares Bedienelement 702-5 anzeigen. Das fünfte auswählbare Bedienelement 702-5 zeigt den folgenden Text an: „Navigation zum Restaurant Mary.“ Wenn ausgewählt, bewirkt das fünfte auswählbare Bedienelement 702-5, dass das Computergerät 202 Navigationsanweisungen von einer Navigationsanwendung initiiert.
In einigen Implementierungen kann das fünfte auswählbare Bedienelement 702-5 ein Ausschnittfenster der Navigationsanwendung sein, das eine Teilmenge von Funktionalitäten der Navigationsanwendung in Verbindung mit den kommunizierten Informationen bereitstellt. Beispielsweise kann das Ausschnittfenster für die Navigationsanwendung es dem Benutzer ermöglichen, Fußweganweisungen, Fahranweisungen oder öffentliche Nahverkehrsverbindungen zu dem Restaurant auszuwählen.
8A-8D veranschaulichen weitere exemplarische Benutzeroberflächen eines Computergeräts, um Benutzer-Sprachanrufe und -Videoanrufe zu unterstützen. 8A-8D werden nacheinander und im Kontext des Computergeräts 202 von 2 beschrieben. Das Computergerät 202 kann andere Benutzeroberflächen mit weniger oder zusätzlichen Merkmalen bereitstellen als den in 8A-8D dargestellten.
In 8A veranlasst das Computergerät 202 die Anzeigekomponente 118, die Benutzeroberfläche 126 mit einem Nachrichtenelement 800 und auswählbaren Bedienelementen 802 in Reaktion auf auswählbare Optionen des IVR-Systems 110 anzuzeigen. Es wird angenommen, dass der Benutzer einen Sprachanruf an ein neues Dienstanbieter-Versorgungsunternehmen tätigt. Die Anruferbox 128 gibt den Geschäftsnamen (z. B. Versorgungsunternehmen) und die Telefonnummer (z. B. (111) 555-2345) des Angerufenen an.
Das IVR-System 110 verwendet ein Sprachantwortsystem, das Anrufer auffordert, Audioantworten für eine Reihe von Fragen und Aussagen bereitzustellen. Es wird angenommen, dass die Audiodaten 304 die folgende Aussage enthalten: „Danke, dass Sie uns als Neukunde kontaktieren. Bitte geben Sie an, welche Art von Dienst Sie interessiert.“ Das IVR-System 110 kann auf eine Phrase lauschen, die mit einer Liste von angebotenen Diensten übereinstimmt oder beinahe übereinstimmt. Beispielsweise kann das Versorgungsunternehmen auf eine der folgenden auswählbaren Optionen lauschen: Internetanschluss Zuhause, Telefon Zuhause oder TV-Dienste. Das Computergerät 202 kann ermitteln, dass die Audiodaten 304 eine implizite Liste von zwei oder mehr auswählbaren Optionen beinhalten. Die Anzeigekomponente 118 kann den folgenden Text im Nachrichtenelement 800 anzeigen: „Im Folgenden sind typische Antworten von neuen Kunden aufgeführt.“ In diesem Beispiel können die auswählbaren Bedienelemente 802 ein erstes auswählbares Bedienelement 802-1 (z. B. „Internetanschluss Zuhause“), ein zweites auswählbares Bedienelement 802-2 (z. B. „Telefon Zuhause“) und ein drittes auswählbares Bedienelement 802-3 (z. B. „TV-Dienste“) beinhalten. Die auswählbaren Bedienelemente 802 können zusätzliche oder weniger Vorschläge beinhalten. Der Benutzer kann eines der auswählbaren Bedienelemente 802 auswählen, wodurch der Audiomischer 208 veranlasst wird, die ausgewählte Option dem IVR-System 110 hörbar bereitzustellen.
Das Computergerät 202 kann die möglichen Vorschläge basierend auf den Audiodaten 304 durch Entschlüsseln der verfügbaren Dienste von hörbaren Teilen des Sprachanrufs ermitteln. Das Computergerät 202 kann auch die auswählbaren Optionen basierend auf Daten ermitteln, die von anderen Computergeräten bei einer ähnlichen Anforderung durch dasselbe Versorgungsunternehmen oder ähnliche Unternehmen erhalten werden. Auf diese Weise kann das Computergerät 202 dem Benutzer helfen, offene IVR-Aufforderungen zu navigieren und ineffektive Antworten zu vermeiden bzw. zu vermeiden, das System zu veranlassen, neu zu starten.
8B ist ein Beispiel der Benutzeroberfläche 126 in Reaktion auf eine Anfrage nach Benutzerinformationen (z. B. Zahlungsinformationen). In Reaktion auf die Auswahl von Internetdiensten Zuhause durch den Benutzer leitet das IVR-System 110 den Benutzer an einen Kontospezialisten weiter, um ein neues Konto einzurichten und Internetdienste für sein Zuhause zu initiieren. Da der Benutzer ein neuer Kontoinhaber ist, erhebt der Kontofachmann Zahlungsinformationen einschließlich einer Kreditkartennummer, um das Konto einzurichten. Zum Beispiel können die Audiodaten 304 die folgende Anfrage vom Fachmann beinhalten: „Bitte geben Sie eine bevorzugte Zahlungsform für Ihre neuen Dienstleistungen an.“ In Reaktion auf das Ermitteln, dass die Audiodaten 304 eine Anforderung von Benutzerinformationen beinhalten, ermittelt das Computergerät 202 eine Textbeschreibung 306 der Anforderung. In diesem Beispiel ermittelt das Untertitelmodul 210, dass die Textbeschreibung 306 nach Kreditkarteninformationen fragt. Das Computergerät 202 identifiziert die Kreditkarteninformationen in den CRM 206 und zeigt die Benutzerdaten auf der Benutzeroberfläche 126 an. Das Antwortelement 800 beinhaltet die folgenden Informationen: „Ihre Kreditkarteninformationen: #### - #### - #### - 1234 [Ablaufdatum:] 01/21 und [PIN] 789.“
Das Computergerät 202 kann auch ermitteln, ob die Benutzerdaten sensible Informationen beinhalten. In Reaktion auf das Ermitteln, dass ein Teil der Benutzerdaten sensible Informationen sind, kann das Computergerät 202 einen Teil der sensiblen Informationen verdecken (z. B. durch Ersetzen von zumindest einigen Ziffern der Kreditkartennummer durch ein anderes Symbol, einschließlich „#“ oder „*“ oder durch Auslassen derselben). Auf diese Weise kann das Computergerät 202 die Geheimhaltung der sensiblen Informationen aufrechterhalten und diese vor anderen Personen verdecken.
Die Anzeigekomponente 118 kann ein auswählbares Bedienelement 802 anzeigen, um die Geheimhaltung der Benutzerdaten aufrechtzuerhalten. In diesem Beispiel zeigt die Anzeigekomponente 118 ein viertes auswählbares Bedienelement 802-4 an, das den folgenden Text beinhaltet: „Meine Kreditkarteninformation vorlesen.“ Wenn ausgewählt, veranlasst das vierte auswählbare Bedienelement 802-4 das Computergerät 202 dazu, die vollständige Kreditkartennummer, das Ablaufdatum und die PIN für den Kontospezialisten hörbar vorzulesen. Auf diese Weise bietet das Computergerät 202 einen sicheren Weg für den Benutzer, sensible Kreditkarteninformationen an den Kontospezialisten weiterzugeben.
In 8C zeigt das Computergerät 202 kommunizierte Informationen in Verbindung mit dem Sprachanruf an. Bedenken Sie den vorherigen Sprachanruf beim Versorgungsunternehmen. Der Kontospezialist stellt dem Benutzer Kontoinformationen (z. B. eine Kontonummer und eine persönliche Identifikationsnummer (PIN)) zur Verfügung. In dieser Situation beinhalten die Audiodaten 304 die folgende Aussage: „Die neue Kontonummer ist UTIL12345 und die mit Ihrem Konto assoziierte PIN ist 6789.“ In Reaktion zeigt das Computergerät 202 die Kontonummer und PIN im Nachrichtenelement 800 an. Insbesondere zeigt das Nachrichtenelement 802: „Ihre Kontonummer: UTIL12345, Ihre PIN: 6789.“ Das Computergerät 202 kann dem Benutzer ein fünftes auswählbares Bedienelement 802-5 und eine sechstes auswählbares Bedienelement 802-6 bereitstellen. Das fünfte auswählbare Bedienelement 802-5 beinhaltet den folgenden Text: „In Kontakten speichern.“ Wenn ausgewählt, veranlasst das fünfte auswählbare Bedienelement 802-5 das Computergerät 202, die Kontonummer und PIN in einer Kontakteanwendung zu speichern. Das sechste auswählbare Bedienelement 802-6 beinhaltet den folgenden Text: „Speichern in sicherem Speicher.“ Wenn ausgewählt, veranlasst das sechste auswählbare Bedienelement 802-6 das Computergerät 202 zum Speichern der Kontonummer und des PINs in einem sicheren Speicher, der spezielle Rechte durch eine Anwendung oder einen Benutzer erfordert, um auf ihn zuzugreifen.
In 8D zeigt das Computergerät 202 kommunizierte Informationen in Verbindung mit einem vorherigen Sprachanruf an. Bedenken Sie den vorherigen Sprachanruf beim Versorgungsunternehmen. In diesem Beispiel konnte der Benutzer während oder kurz nach dem Sprachanruf die auf der Benutzeroberfläche angezeigten übermittelten Informationen nicht überprüfen. Das Computergerät 202 kann das Nachrichtenelement 802, das fünfte auswählbare Bedienelement 802-5, das sechste auswählbare Bedienelement 802-6 oder eine Kombination davon in Verbindung mit dem Sprachanruf speichern. Auf diese Weise kann der Benutzer später auf die Textbeschreibung 306 der Kommunikationsinformationen zugreifen.
Die Anrufhistorie kann eine Benutzeroberfläche 126 bereitstellen, die mit jedem Sprachanruf oder Videoanruf assoziiert ist. Zum Beispiel kann die Benutzeroberfläche 126, die mit der Historie des Sprachanrufs mit dem Versorgungsunternehmen assoziiert ist, ein Historienelement 804 beinhalten. Das Historienelement 804 kann historische Informationen über den Sprachanruf beinhalten, einschließlich des folgenden Textes: „Ausgehender Anruf am 2. November.“
In einigen Situationen muss der Benutzer möglicherweise unmittelbar nach der Beendigung des Sprachanrufs mit dem Versorgungsunternehmen einen anderen Sprachanruf oder Videoanruf durchführen oder muss möglicherweise eine andere Funktionalität auf dem Computergerät 202 ausführen. Das Computergerät 202 kann die Nachrichtenelemente 800 und die auswählbaren Bedienelemente 802, die mit jedem Sprachanruf oder Videoanruf assoziiert sind, in einem Speicher speichern, der mit der Kommunikationsanwendung 124 assoziiert ist. Die Kommunikationsanwendung 124 kann eine Anrufhistorie beinhalten. Auf diese Weise kann der Benutzer das Nachrichtenelement 800 und die auswählbaren Bedienelemente 802, die sich auf einen Sprachanruf oder Videoanruf beziehen, später abrufen, wenn es bequem ist.
BEISPIELE
In dem folgenden Abschnitt werden Beispiele bereitgestellt.
Beispiel 1: Verfahren, umfassend: Erhalten, durch ein Computergerät, von Audiodaten, die von einer Kommunikationsanwendung ausgegeben werden, die auf dem Computergerät ausgeführt wird, die Audiodaten umfassend hörbare Teile eines Sprachanrufs oder eines Videoanrufs zwischen einem Benutzer des Computergeräts und einem Dritten; Ermitteln, durch das Computergerät und unter Nutzung der hörbaren Teile, ob die Audiodaten zwei oder mehr auswählbare Optionen beinhalten, wobei die zwei oder mehr auswählbaren Optionen von dem Dritten während des Sprachanrufs oder des Videoanrufs hörbar bereitgestellt werden; in Reaktion auf das Ermitteln, dass die Audiodaten die zwei oder mehr auswählbaren Optionen beinhalten, Ermitteln, durch das Computergerät, einer Textbeschreibung der zwei oder mehr auswählbaren Optionen, wobei die Textbeschreibung eine Transkription von zumindest einem Teil der zwei oder mehr auswählbaren Optionen bereitstellt; und Anzeigen von zwei oder mehr auswählbaren Bedienelementen auf einer Anzeige des Computergeräts, wobei die zwei oder mehr auswählbaren Bedienelemente so konfiguriert sind, dass sie vom Benutzer auswählbar sind, um dem Dritten einen Hinweis auf eine ausgewählte Option der zwei oder mehr auswählbaren Optionen bereitzustellen, wobei jedes der zwei oder mehr auswählbaren Bedienelemente die Textbeschreibung einer entsprechenden auswählbaren Option bereitstellen.
Beispiel 2: Verfahren nach Beispiel 1, wobei das Verfahren ferner umfasst: Empfangen einer Auswahl eines auswählbaren Bedienelements der zwei oder mehr auswählbaren Bedienelemente, die mit der ausgewählten Option assoziiert sind, wobei die Auswahl durch den Benutzer während des Sprachanrufs oder des Videoanrufs erfolgt; und in Reaktion auf das Empfangen der Auswahl des einen auswählbaren Bedienelements, Kommunizieren der ausgewählten Option durch das Computergerät an den Dritten.
Beispiel 3: Verfahren nach Beispiel 2, wobei das Kommunizieren der ausgewählten Option an den Dritten das Senden einer Audioantwort oder eines Zweiton-Mehrfrequenztons (DTMF) durch das Computergerät an den Dritten umfasst, ohne dass der Benutzer die ausgewählte Option hörbar kommuniziert.
Beispiel 4: Verfahren nach Beispiel 2 oder 3, wobei das Verfahren ferner umfasst: in Reaktion auf das Kommunizieren der ausgewählten Option an den Dritten, Erhalten, durch das Computergerät, zusätzlicher Audiodaten, die von der Kommunikationsanwendung ausgegeben werden, wobei die zusätzlichen Audiodaten zwei oder mehr zusätzliche auswählbare Optionen umfassen, die hörbar von dem Dritten während des Sprachanrufs oder des Videoanrufs in Reaktion auf die ausgewählte Option bereitgestellt werden.
Beispiel 5: Verfahren nach einem vorhergehenden Beispiel, das Verfahren ferner umfassend: Ermitteln, durch das Computergerät und unter Nutzung der hörbaren Teile, ob die Audiodaten eine Anfrage nach Benutzerinformationen beinhalten, wobei die Anfrage nach Benutzerinformationen von dem Dritten während des Sprachanrufs oder des Videoanrufs hörbar bereitgestellt werden; Identifizieren, durch das Computergerät und unter Nutzung der hörbaren Teile, von Benutzerdaten in Reaktion auf die Anfrage nach Benutzerinformationen; und Anzeigen, durch das Computergerät, der Benutzerdaten auf der Anzeige oder Bereitstellen, durch das Computergerät, der Benutzerdaten an den Dritten während des Sprachanrufs oder des Videoanrufs.
Beispiel 6: Verfahren nach einem vorhergehenden Beispiel, das Verfahren ferner umfassend: Ermitteln, durch das Computergerät und unter Nutzung der hörbaren Teile, ob die Audiodaten kommunizierte Informationen beinhalten, wobei die kommunizierten Informationen sich auf einen Kontext des Sprachanrufs oder des Videoanrufs beziehen und während des Sprachanrufs oder des Videoanrufs hörbar von dem Dritten oder dem Benutzer bereitgestellt werden; in Reaktion auf das Ermitteln, dass die Audiodaten die kommunizierten Informationen beinhalten, Ermitteln, durch das Computergerät, einer Textbeschreibung der kommunizierten Informationen, wobei die Textbeschreibung der kommunizierten Informationen eine Transkription von zumindest einem Teil der kommunizierten Informationen bereitstellt; und Anzeigen eines anderen auswählbaren Bedienelements auf der Anzeige, wobei das andere auswählbare Bedienelement die Textbeschreibung der kommunizierten Informationen bereitstellt und so konfiguriert ist, dass sie vom Benutzer auswählbar ist, um die kommunizierten Informationen in zumindest einem von dem Computergerät, der Anwendung, oder einer anderen Anwendung auf dem Computergerät zu speichern.
Beispiel 7: Verfahren nach einem vorhergehenden Beispiel, wobei das Ermitteln der Textbeschreibung der zwei oder mehr auswählbaren Optionen das Ausführen eines maschinell erlernten Modells durch das Computergerät umfasst, um die Textbeschreibung der zwei oder mehr auswählbaren Optionen zu ermitteln, wobei das maschinengelernte Modell trainiert ist, um Textbeschreibungen aus den Audiodaten, zu ermitteln, wobei die Audiodaten von einem Audiomischer des Computergeräts empfangen werden.
Beispiel 8: Verfahren nach Beispiels 7, wobei das maschinell erlernte Modell ein automatisches rekurrentes Ende-zu-Ende neurales Netzwerk-Umformer-Spracherkennungsmodell umfasst.
Beispiel 9: Verfahren nach einem vorhergehenden Beispiel, wobei die zwei oder mehr auswählbaren Optionen ein Menü sind, das Optionen eines interaktiven Sprachantwort-(IVR-)Systems oder eines Sprachantwort-Einheit-(VRU-)Systems darstellt, wobei das IVR-System oder VRU-Systemkonfiguriert ist, mit dem Benutzer zu interagieren und den Benutzer zu zumindest einem anderen Menü des IVR-Systems oder VRU-Systems, mit dem Dritten assoziierten Personal, einer mit dem Dritten assoziierten Abteilungen, mit dem Dritten assoziierten Diensten oder mit dem Dritten assoziierte Informationen weiterzuleiten.
Beispiel 10: Verfahren nach einem der vorhergehenden Beispiele, wobei die zwei oder mehr auswählbaren Bedienelemente zumindest eines von Tasten, Schaltern, auswählbarem Text, Schiebern, Kontrollkästchen oder Symbolen umfassen und in einer Benutzeroberfläche der Kommunikationsanwendung enthalten sind.
Beispiel 11: Verfahren nach einem der vorhergehenden Beispiele, wobei die Textbeschreibung eine mit jeder der zwei oder mehr auswählbaren Optionen assoziierte Zahl enthält und wobei jedes der auswählbaren Bedienelemente eine visuelle Darstellung der mit jeder der zwei oder mehr auswählbaren Optionen assoziierten Zahl enthält.
Beispiel 12: Verfahren nach einem der vorhergehenden Beispiele, wobei die Anzeige des Computergeräts einen berührungsempfindlichen Bildschirm umfasst und wobei die auswählbaren Bedienelemente auf dem berührungsempfindlichen Bildschirm dargestellt werden.
Beispiel 13: Verfahren nach einem der vorhergehenden Beispiele, wobei das Computergerät ein Smartphone, eine computerisierte Uhr, ein Tablet-Gerät, ein tragbares Gerät oder einen Laptop-Computer umfasst.
Beispiel 14: Computergerät, das zumindest einen Prozessor umfasst, der konfiguriert ist, eines der Verfahren nach den Beispielen 1 bis 13 durchzuführen.
Beispiel 15: Computerlesbares Speichermedium, das Anweisungen umfasst, die, bei Ausführung, einen Prozessor eines Computergeräts konfigurieren, eines der Verfahren nach den Beispielen 1 bis 13 durchzuführen.
SCHLUSSFOLGERUNG
Obwohl verschiedene Konfigurationen und Verfahren zum Bereitstellen von auswählbaren Bedienelementen in einer für Merkmale und/oder Verfahren spezifischen Sprache beschrieben wurden, versteht es sich, dass der Gegenstand der angefügten Ansprüche nicht zwangsläufig auf die beschriebenen spezifischen Merkmale oder Verfahren beschränkt ist. Vielmehr werden die spezifischen Merkmale und Verfahren als nicht einschränkende Beispiele für das Bereitstellen auswählbarer Bedienelemente auf einem Computergerät für IVR-Systeme offenbart. Ferner sind verschiedene Beispiele zuvor beschrieben worden, wobei jedes Beispiel bestimmte Merkmale aufweist, wobei es sich versteht, dass ein bestimmtes Merkmal eines Beispiels nicht ausschließlich mit diesem Beispiel verwendet werden muss. Vielmehr kann jedes der zuvor beschriebenen und/oder in den Zeichnungen dargestellte Merkmal mit jedem der Beispiele kombiniert werden, zusätzlich oder in Ergänzung zu jedem der anderen Merkmale dieser Beispiele.

Claims

Verfahren, umfassend: Erhalten, durch ein Computergerät, von Audiodaten, die von einer Kommunikationsanwendung ausgegeben werden, die auf dem Computergerät ausgeführt wird, wobei die Audiodaten hörbare Teile eines Sprachanrufs oder eines Videoanrufs zwischen einem Benutzer des Computergeräts und einem Dritten umfassen; Ermitteln, durch das Computergerät und unter Nutzung der hörbaren Teile, ob die Audiodaten zwei oder mehr auswählbare Optionen beinhalten, wobei die zwei oder mehr auswählbaren Optionen hörbar durch den Dritten während des Sprachanrufs oder des Videoanrufs bereitgestellt werden; in Reaktion auf das Ermitteln, dass die Audiodaten die zwei oder mehr auswählbaren Optionen beinhalten, Ermitteln, durch das Computergerät, einer Textbeschreibung der zwei oder mehr auswählbaren Optionen, wobei die Textbeschreibung eine Transkription von zumindest einem Teil der zwei oder mehr auswählbaren Optionen bereitstellt; und Anzeigen von zwei oder mehr auswählbaren Bedienelementen auf einer Anzeige des Computergeräts, wobei die zwei oder mehr auswählbaren Bedienelemente so konfiguriert sind, dass sie vom Benutzer auswählbar sind, um dem Dritten eine Anzeige einer ausgewählten Option der zwei oder mehr auswählbaren Optionen bereitzustellen, wobei jede der zwei oder mehr auswählbaren Bedienelemente die Textbeschreibung einer entsprechenden auswählbaren Option bereitstellt.
Verfahren nach Anspruch 1, das Verfahren ferner umfassend: Empfangen einer Auswahl eines auswählbaren Bedienelements der zwei oder mehr auswählbaren Bedienelemente, die mit der ausgewählten Option assoziiert sind, wobei die Auswahl durch den Benutzer während des Sprachanrufs oder des Videoanrufs erfolgt; und in Reaktion auf das Empfangen der Auswahl des einen auswählbaren Bedienelements, Kommunizieren, durch das Computergerät, der ausgewählten Option an den Dritten.
Verfahren nach Anspruch 2, wobei das Kommunizieren der ausgewählten Option an den Dritten das Senden einer Audioantwort oder eines Zweiton-Mehrfrequenztons (DTMF-Ton) an den Dritten durch das Computergerät umfasst, ohne dass der Benutzer die ausgewählte Option hörbar kommuniziert.
Verfahren nach Anspruch 2 oder 3, das Verfahren ferner umfassend: in Reaktion auf das Kommunizieren der ausgewählten Option an den Dritten, Erhalten, durch das Computergerät, zusätzlicher Audiodaten, die von der Kommunikationsanwendung ausgegeben werden, wobei die zusätzlichen Audiodaten zwei oder mehr zusätzliche auswählbare Optionen beinhalten, die hörbar durch den Dritten während des Sprachanrufs oder des Videoanrufs in Reaktion auf die ausgewählte Option bereitgestellt werden.
Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Ermitteln, durch das Computergerät und unter Nutzung der hörbaren Teile, ob die Audiodaten eine Anfrage nach Benutzerinformationen beinhalten, wobei die Anfrage nach Benutzerinformationen hörbar durch den Dritten während des Sprachanrufs oder des Videoanrufs bereitgestellt wird; Identifizieren, durch das Computergerät und unter Nutzung der hörbaren Teile, von Benutzerdaten in Reaktion auf die Anforderung von Benutzerinformationen; und Anzeigen, durch das Computergerät, der Benutzerdaten auf der Anzeige oder Bereitstellen, durch das Computergerät, der Benutzerdaten an den Dritten während des Sprachanrufs oder des Videoanrufs.
Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Ermitteln, durch das Computergerät und unter Nutzung der hörbaren Teile, ob die Audiodaten kommunizierte Informationen beinhalten, wobei die kommunizierten Informationen mit einem Kontext des Sprachanrufs oder des Videoanrufs in Verbindung stehen und hörbar durch den Dritten oder den Benutzer während des Sprachanrufs oder des Videoanrufs bereitgestellt werden; in Reaktion auf das Ermitteln, dass die Audiodaten die kommunizierten Informationen beinhalten, das Ermitteln, durch das Computergerät, einer Textbeschreibung der kommunizierten Informationen, wobei die Textbeschreibung der kommunizierten Informationen eine Transkription von zumindest einem Teil der kommunizierten Informationen bereitstellt; und Anzeigen eines anderen auswählbaren Bedienelements auf der Anzeige, wobei das andere auswählbare Bedienelement die Textbeschreibung der kommunizierten Informationen bereitstellt und so konfiguriert ist, dass sie durch den Benutzer auswählbar ist, um die kommunizierten Informationen in zumindest einem von dem Computergerät, der Anwendung oder einer anderen Anwendung auf dem Computergerät zu speichern.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Ermitteln der Textbeschreibung der zwei oder mehr auswählbaren Optionen ein Ausführen eines maschinell erlernten Modells durch das Computergerät umfasst, um die Textbeschreibung der zwei oder mehr auswählbaren Optionen zu ermitteln, wobei das maschinell erlernte Modell trainiert ist, um aus den Audiodaten Textbeschreibungen zu ermitteln, wobei die Audiodaten von einem Audiomischer des Computergeräts empfangen werden.
Verfahren nach Anspruch 7, wobei das maschinell erlernte Modell ein automatisches rekurrentes Ende-zu-Ende neurales Netzwerk-Umformer-Spracherkennungsmodell umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die zwei oder mehr auswählbaren Optionen ein Menü sind, das Optionen eines interaktiven Sprachantwort-(IVR-)Systems oder eines Sprachantwort-Einheit-(VRU-)Systems darstellt, wobei das IVR-System oder VRU-Systemkonfiguriert ist, mit dem Benutzer zu interagieren und den Benutzer zu zumindest einem von einem anderen Menü des IVR-Systems oder VRU-Systems, mit dem Dritten assoziierten Personal, mit dem Dritten assoziierten Abteilungen, mit dem Dritten assoziierten Dienstleistungen oder mit dem Dritten assoziierten Informationen zu leiten.
Verfahren nach einem der vorstehenden Ansprüche, wobei die zwei oder mehr auswählbaren Bedienelemente zumindest eines von Tasten, Schaltern, auswählbarem Text, Schiebern, Kontrollkästchen oder Symbolen umfassen und in einer Benutzeroberfläche der Kommunikationsanwendung enthalten sind.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Textbeschreibung eine mit jeder der zwei oder mehr auswählbaren Optionen assoziierte Zahl enthält und wobei jedes der auswählbaren Bedienelemente eine visuelle Darstellung der jeder mit den zwei oder mehr auswählbaren Optionen assoziierten Zahl enthält.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Anzeige des Computergeräts einen berührungsempfindlichen Bildschirm umfasst und wobei die auswählbaren Bedienelemente auf dem berührungsempfindlichen Bildschirm dargestellt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Computergerät ein Smartphone, eine computerisierte Uhr, einen Tablet-Computer, tragbaren Computer oder Laptop-Computer umfasst.
Computergerät, das zumindest einen Prozessor umfasst, der konfiguriert ist, eines der Verfahren nach den Ansprüchen 1 bis 13 durchzuführen.
Computerlesbares Speichermedium, das Anweisungen umfasst, die, bei Ausführung, einen Prozessor eines Computergeräts konfigurieren, eines der Verfahren nach Ansprüchen 1 bis 13 durchzuführen.