DE212017000294U1

DE212017000294U1 - Authentifizierung von paketierten Audiosignalen

Info

Publication number: DE212017000294U1
Application number: DE212017000294.8U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-08-31
Publication date: 2019-10-10
Anticipated expiration: 2027-09-01
Also published as: KR20210078579A; EP3916594A1; GB2563965B; US10541998B2; GB201802838D0; KR102421668B1; JP6922028B2; EP3360307A1; CN113141397A; JP2021192235A; GB202114214D0; JP7386829B2; US10917404B2; EP3557462A1; US10541997B2; KR102137224B1; JP6692832B2; EP3557462B1; US20180191713A1; JP2020144881A

Abstract

System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, umfassend:
eine Prozessorkomponente für natürliche Sprache, die durch ein Datenverarbeitungssystem ausgeführt wird, um über eine Schnittstelle des Datenverarbeitungssystems Datenpakete zu empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Eingabeaudiosignal umfassen;
die Prozessorkomponente für natürliche Sprache, um das Eingabeaudiosignal zu parsen, um eine Anfrage und ein Auslöserschlüsselwort entsprechend der Anfrage zu identifizieren;
eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems, um basierend auf dem Auslöserschlüsselwort eine erste Aktionsdatenstruktur in Reaktion auf die Anfrage zu generieren;
eine Netzwerksicherheitsvorrichtung zum Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals, um einen Alarmzustand zu erkennen;
eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente zum Empfangen des Auslöserschlüsselworts, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands, und basierend auf dem Auslöserschlüsselwort und der Angabe, Auswählen eines Inhaltselements;
die Netzwerksicherheitsvorrichtung zum:
Empfangen von Datenpaketen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat;
Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals, um einen zweiten Alarmzustand zu erkennen; und
Übertragen einer Anweisung basierend auf dem zweiten Alarmzustand an das Drittanbietergerät, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren.

Description

QUERVERWEIS AUF EINE VERWANDTE ANMELDUNG
Die vorliegende Anmeldung beansprucht die Priorität der am 30. Dezember 2016 eingereichten US-Patentanmeldung Nr. 15/395,729 .
HINTERGRUND
Überhöhte paketbasierte oder anderweitige überhöhte Netzwerkübertragungen von Netzwerkverkehrsdaten zwischen Computergeräten können ein Computergerät daran hindern, die Netzwerkverkehrsdaten richtig zu verarbeiten, einen Vorgang, der mit den Netzwerkverkehrsdaten verbunden ist, abzuschließen oder zeitgerecht auf die Netzwerkverkehrsdaten zu reagieren. Die überhöhten Netzwerkübertragungen von Netzwerkverkehrsdaten können zudem ein Datenrouting erschweren oder die Qualität der Antwort verschlechtern, wenn das reagierende Computergerät an oder über dessen Verarbeitungskapazität gelangt, was eine ineffiziente Bandbreitenverwendung zur Folge haben kann. Ein Teil der überhöhten Netzwerkübertragungen kann ggf. schädliche Netzwerkübertragungen beinhalten.
KURZDARSTELLUNG
Die vorliegende Offenbarung betrifft im Allgemeinen die Authentifizierung von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, um den Betrag überhöhter Netzwerkübertragungen zu reduzieren. Eine durch ein Datenverarbeitungssystem ausgeführte Prozessorkomponente für natürliche Sprache kann Datenpakete empfangen. Die Datenpakete können ein durch einen Sensor eines Client-Computergeräts erkanntes Eingabeaudiosignal beinhalten. Die Prozessorkomponente für natürliche Sprache kann das Eingabeaudiosignal parsen, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Eine Netzwerksicherheitsvorrichtung kann eine oder mehrere Eigenschaften des Eingabeaudiosignals analysieren. Basierend auf den Eigenschaften kann die Netzwerksicherheitsvorrichtung einen Alarmzustand einstellen. Die Netzwerksicherheitsvorrichtung kann einer Inhaltsauswahlkomponente des Datenverarbeitungssystems einen Hinweis auf den Alarmzustand geben. Die Inhaltsauswahlkomponente kann, basierend auf dem Alarmzustand, ein Inhaltselement über einen Echtzeit-Inhaltsauswahlprozess auswählen. Eine durch das Datenverarbeitungssystem ausgeführte Audiosignalgeneratorkomponente kann ein Ausgabesignal beinhalten, das das Inhaltselement umfasst. Eine Schnittstelle des Datenverarbeitungssystems kann Datenpakete übertragen, die das von der Audiosignalgeneratorkomponente generierte Ausgabesignal umfassen, um eine von dem Client-Computergerät ausgeführte Audiotreiberkomponente dazu zu veranlassen, einen Lautsprecher des Client-Computergeräts anzusteuern, um eine akustische Welle zu generieren, die dem Ausgabesignal entspricht. Das Datenverarbeitungssystem kann ein Antwort-Audiosignal empfangen. Das Antwort-Audiosignal wird in Reaktion auf das von dem Client-Computergerät generierte Ausgabesignal empfangen. Das Antwort-Audiosignal kann Eigenschaften beinhalten, die von der Netzwerksicherheitsvorrichtung analysiert werden. Basierend auf den Eigenschaften des Antwort-Audiosignals kann die Netzwerksicherheitsvorrichtung eine Kommunikationssitzung zwischen einem Dienstanbieter und einem Client-Computergerät beenden oder aussetzen.
Gemäß einem Aspekt der Offenbarung kann ein System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung eine Prozessorkomponente für natürliche Sprache beinhalten, die durch ein Datenverarbeitungssystem ausgeführt wird. Die Prozessorkomponente für natürliche Sprache kann über eine Schnittstelle des Datenverarbeitungssystems Datenpakete empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Audioeingabesignal beinhalten. Die Prozessorkomponente für natürliche Sprache kann das Eingabeaudiosignal parsen, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Das System kann eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems beinhalten, das basierend auf dem Auslöserschlüsselwort in Reaktion auf die Anfrage eine Aktionsdatenstruktur generieren kann. Das System kann außerdem eine Netzwerksicherheitsvorrichtung beinhalten, die die erste Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals vergleichen kann, um einen Alarmzustand zu erkennen. Das System kann eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente beinhalten. Das Inhaltsauswahlelement kann das Auslöserschlüsselwort, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands empfangen, und basierend auf dem Auslöserschlüsselwort und der Angabe ein Inhaltselement auswählen. Die Netzwerksicherheitsvorrichtung kann Datenpakete empfangen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät herstellte. Die Netzwerksicherheitsvorrichtung kann eine zweite Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals vergleichen, um einen zweiten Alarmzustand zu erkennen. Die Netzwerksicherheitsvorrichtung kann basierend auf dem zweiten Alarmzustand eine Anweisung an das Drittanbietergerät übertragen, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren.
Gemäß einem anderen Aspekt der Offenbarung kann ein Verfahren zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung Empfangen von Datenpaketen mit einem durch einen Sensor eines Client-Geräts erkannten Eingabeaudiosignal durch eine Prozessorkomponente für natürliche Sprache beinhalten, die durch ein Datenverarbeitungssystem ausgeführt wird. Das Verfahren kann zudem Parsen des Eingabeaudiosignals durch die Prozessorkomponente für natürliche Sprache beinhalten, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Das Verfahren kann eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems beinhalten, das basierend auf dem Auslöserschlüsselwort in Reaktion auf die Anfrage eine erste Aktionsdatenstruktur generieren kann. Das Verfahren kann zudem Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals beinhalten, um einen Alarmzustand zu erkennen. Das Verfahren kann Auswählen eines Inhaltselements basierend auf dem Auslöserschlüsselwort und dem Alarmzustand durch eine Inhaltsauswahlkomponente beinhalten, die durch das Datenverarbeitungssystem ausgeführt wird. Das Verfahren kann Empfangen von Datenpaketen beinhalten, die ein Antwort-Audiosignal beinhalten, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat. Das Verfahren kann Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals beinhalten, um einen zweiten Alarmzustand zu erkennen. Das Verfahren kann Übertragen einer Anweisung an das Drittanbietergerät durch die Netzwerksicherheitsvorrichtung beinhalten, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren, in Reaktion auf die Interaktion mit dem Inhaltselement.
Gemäß einem Aspekt der Offenbarung kann ein System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung eine Prozessorkomponente für natürliche Sprache beinhalten, die durch ein Datenverarbeitungssystem ausgeführt wird. Die Prozessorkomponente für natürliche Sprache kann über eine Schnittstelle des Datenverarbeitungssystems Datenpakete empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Audioeingabesignal beinhalten. Die Prozessorkomponente für natürliche Sprache kann das Eingabeaudiosignal parsen, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Das System kann eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems beinhalten, das basierend auf dem Auslöserschlüsselwort in Reaktion auf die Anfrage eine Aktionsdatenstruktur generieren kann. Das System kann auch eine Netzwerksicherheitsvorrichtung beinhalten, die die erste Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals vergleichen kann, um einen Alarmzustand zu erkennen. Das System kann eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente beinhalten. Das Inhaltsauswahlelement kann das Auslöserschlüsselwort, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands empfangen, und basierend auf dem Auslöserschlüsselwort und der Angabe ein Inhaltselement auswählen. Die Netzwerksicherheitsvorrichtung kann Datenpakete empfangen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät herstellte. Die Netzwerksicherheitsvorrichtung kann eine zweite Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals vergleichen, um einen zweiten Pass-Zustand zu erkennen. Die Netzwerksicherheitsvorrichtung kann basierend auf dem zweiten Alarmzustand eine Anweisung an ein Drittanbietergerät übertragen, um die mit dem Client-Gerät hergestellte Kommunikationssitzung fortzusetzen.
Diese und andere Aspekte und Implementierungen werden nachfolgend näher erläutert. Die vorstehenden Informationen und die folgende ausführliche Beschreibung beinhalten veranschaulichende Beispiele verschiedener Aspekte und Implementierungen und stellen einen Überblick oder einen Rahmen für das Verständnis des Wesens und Charakters der beanspruchten Aspekte und Implementierungen bereit. Die Zeichnungen bieten eine Veranschaulichung und ein weiteres Verständnis der verschiedenen Aspekte und Implementierungen und sind in diese Spezifikation einbezogen und stellen einen Teil derselben dar.
Figurenliste
Die begleitenden Zeichnungen sollen nicht maßstabsgetreu sein. Gleiche Bezugszeichen und Bezeichnungen in den verschiedenen Zeichnungen verweisen auf ähnliche Elemente. Aus Gründen der Übersichtlichkeit ist möglicherweise nicht jede Komponente in jeder Zeichnung beschriftet. In den Zeichnungen:

1 stellt ein exemplarisches System zum Ausführen von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung dar;
2 veranschaulicht ein Ablaufdiagramm, das einen exemplarischen Betrieb eines Systems zum Ausführen von Authentifizierung von paketierten Audiosignalen veranschaulicht;
3 veranschaulicht ein exemplarisches Verfahren zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung unter Verwendung des in 1 veranschaulichten Systems; und
4 zeigt ein Blockdiagramm, das eine allgemeine Architektur für ein Computersystem veranschaulicht, das zum Implementieren von Elementen der hierin beschriebenen und veranschaulichten Systeme und Verfahren eingesetzt werden kann.

AUSFÜHRLICHE BESCHREIBUNG
Nachfolgend finden sich ausführlichere Beschreibungen verschiedener Konzepte, die sich auf Verfahren, Vorrichtungen und Systeme und deren Implementierungen beziehen. Die verschiedenen Konzepte, die vorstehend vorgestellt wurden und nachstehend ausführlicher erläutert werden, können auf eine beliebige von zahlreichen Weisen implementiert werden.
Die vorliegende Offenbarung betrifft im Allgemeinen ein Datenverarbeitungssystem zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung. Das Datenverarbeitungssystem kann die Effizienz und Effektivität der Übertragung von auditiven Datenpaketen über ein oder mehrere Computernetzwerke verbessern, indem es beispielsweise schädliche Übertragungen vor deren Übertragung über das Netzwerk deaktiviert. Die vorliegende Lösung kann auch die Rechenleistung verbessern, indem sie entfernte Computerprozesse deaktiviert, die möglicherweise durch die schädlichen Audiosignalübertragungen beeinträchtigt oder verursacht werden. Durch Deaktivieren der Übertragung von schädlichen Audiosignalen kann das System die Bandbreitenverwendung reduzieren, indem es die Datenpakete, die das schädliche Audiosignal transportieren, nicht über Netzwerke überträgt. Verarbeiten des natürlich gesprochenen Audiosignals kann eine rechenintensive Aufgabe sein. Durch Erkennen möglicherweise schädlicher Audiosignale kann das System Rechenaufwand reduzieren, indem es das System in die Lage versetzt, die Verarbeitung möglicherweise schädlicher Audiosignale zu überspringen oder vorübergehend zu überspringen. Das System kann Rechenaufwand reduzieren, indem es Kommunikationssitzungen deaktiviert, wenn die schädliche Aktivität erkannt wird.
Die hierin beschriebenen Systeme und Verfahren können ein Datenverarbeitungssystem beinhalten, das eine Audioeingabeabfrage empfängt, was auch als ein Audioeingabesignal bezeichnet werden kann. Von der Audioeingabeaudioabfrage kann das Datenverarbeitungssystem eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage identifizieren. Das System kann Aktionsdatenstrukturen basierend auf der Audioeingabeabfrage generieren. Das System kann zudem Merkmale der Audioeingabeabfrage messen. Das System kann bestimmen, ob die Merkmale der Audioeingabeabfrage mit den vorhergesagten oder erwarteten Eigenschaften der Audioeingabeabfrage übereinstimmen. Wenn die Merkmale nicht mit den erwarteten Eigenschaften übereinstimmen, kann das System ein Inhaltselement auswählen, das an die Quelle der Audioeingabeabfrage zurückübertragen wird. Eine Kommunikationssitzung kann mit der Quelle gestartet werden. Das Inhaltselement kann ein Ausgabesignal beinhalten, das über einen der Quelle zugeordneten Lautsprecher wiedergegeben werden kann. Das System kann ein Antwort-Audiosignal auf das Inhaltselement empfangen. Das Antwort-Audiosignal kann zudem Merkmale beinhalten, die von dem System mit den erwarteten Eigenschaften verglichen werden. Wenn die Eigenschaften des Antwort-Audiosignals nicht mit den erwarteten Eigenschaften übereinstimmen, kann das System die Kommunikationssitzungen mit der Quelle deaktivieren und verhindern, dass die Quelle Kommunikationssitzungen mit Drittanbietern oder Inhaltsanbietern initiiert, wodurch Netzwerkbandbreite gespart wird, die Prozessorauslastung reduziert und Strom spart.
Die vorliegende Lösung kann die Übertragung von unsicheren audiobasierten Benutzerinteraktionen verhindern, indem sie die Interaktion authentifiziert. Durch Sichern audiobasierter Benutzerinteraktionen kann verhindert werden, dass schädliche Prozesse unter dem Benutzerkonto (oder dem eines anderen Benutzers) ausgeführt werden. Verhindern der Ausführung schädlicher Prozesse kann zudem die Netzwerkbandbreitensowie die Prozessorauslastung oder -last reduzieren. Die vorliegende Lösung kann Netzwerkbandbreitenauslastung reduzieren, indem sie die Übertragung nicht autorisierter audiobasierter Benutzerinteraktionen unterbindet.
1 stellt ein exemplarisches System 100 zum Ausführen von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung dar. Das System 100 kann mindestens ein Datenverarbeitungssystem 105 beinhalten. Das Datenverarbeitungssystem 105 kann mindestens einen Server beinhalten, der mindestens einen Prozessor aufweist. Das Datenverarbeitungssystem 105 kann z. B. eine Vielzahl von Servern beinhalten, die sich in mindestens einem Rechenzentrum oder in einer Serverfarm befinden. Das Datenverarbeitungssystem 105 kann aus einem Audioeingabesignal eine Anfrage und ein mit der Anfrage verknüpftes Auslöserschlüsselwort bestimmen. Basierend auf der Anfrage und dem Auslöserschlüsselwort kann das Datenverarbeitungssystem 105 einen Thread bestimmen oder auswählen, der eine Vielzahl von sequenzabhängigen Vorgängen beinhaltet, und Inhaltselemente (und andere Aktionen wie hierin beschrieben einleiten) in einer Reihenfolge, die nicht der Reihenfolge von abhängigen Vorgängen entspricht, z. B. als Teil eines sprachaktivierten Kommunikations- oder Planungssystems, auswählen. Die Inhaltselemente können eine oder mehrere Audiodateien beinhalten, die beim Wiedergeben eine Audioausgabe oder akustische Welle bereitstellen. Die Inhaltselemente können neben Audioinhalten auch andere Inhalte (z. B. Text-, Video- oder Bildinhalte) beinhalten.
Das Datenverarbeitungssystem 105 kann mehrere, logisch gruppierte Server beinhalten und verteilte Rechenprozesse unterstützen. Die logische Gruppe von Servern kann als ein Rechenzentrum, eine Serverfarm oder eine Computerfarm bezeichnet werden. Die Server können geografisch verteilt sein. Ein Rechenzentrum oder eine Computerfarm kann als eine einzelne Entität verwaltet werden oder die Computerfarm kann eine Vielzahl von Computerfarmen beinhalten. Die Server in einer Computerfarm können heterogen sein - ein oder mehrere der Server oder Computer können gemäß einem oder mehreren Arten von Betriebssystemplattformen betrieben werden. Das Datenverarbeitungssystem 105 kann Server in einem Rechenzentrum beinhalten, die in einem oder mehreren High-Density-Racksystemen gespeichert sind, sowie zugehörige Speichersysteme, die sich beispielsweise in einem Unternehmensrechenzentrum befinden. Das Datenverarbeitungssystem 105 mit konsolidierten Servern kann auf diese Weise Systemverwaltung, Datensicherheit, physische Sicherheit des Systems sowie Systemleistung verbessern, indem in lokalisierten Hochleistungsnetzwerken nach Servern und Hochleistungsspeichersystemen gesucht wird. Die Zentralisierung aller oder einiger der Datenverarbeitungssystem- 105 -Komponenten, einschließlich Server und Speichersysteme, sowie das Koppeln derselben mit verbesserten System-Management-Tools ermöglicht eine effizientere Verwendung von Server-Ressourcen, wodurch Strom- und Verarbeitungsanforderungen gespart und die Bandbreitenauslastung reduziert werden.
Das Datenverarbeitungssystem 105 kann mindestens eine Prozessorkomponente 110 für natürliche Sprache (NLP), mindestens eine Schnittstelle 115, mindestens eine Netzwerksicherheitsvorrichtung 123, mindestens eine Inhaltsauswahlelementkomponente 125, mindestens eine Audiosignalgeneratorkomponente 130, mindestens eine Direktaktions-Anwendungsprogrammierschnittstelle (API) 135, mindestens eine Sitzungshandhabungselementkomponente 140, mindestens eine Kommunikations-API 136 und mindestens einen Datenbehälter 145 beinhalten. Die NLP-Komponente 110, Schnittstelle 115, Netzwerksicherheitsvorrichtung 123, Inhaltsauswahlelementkomponente 125, Audiosignalgeneratorkomponente 130, Direktaktions-API 135 und Sitzungshandhabungselementkomponente 140 können jeweils mindestens eine Verarbeitungseinheit, einen Server, virtuellen Server, eine Schaltung, eine Maschine, einen Agenten, eine Vorrichtung oder ein sonstiges Logikgerät, wie z. B. programmierbare Arrays beinhalten, die konfiguriert sind, mit dem Datenbehälter 145 und mit sonstigen Computergeräten (z. B. dem Client-Computergerät 150, dem Inhaltsanbietercomputergerät 155 oder dem Dienstanbietercomputergerät 160) über das mindestens eine Computernetzwerk 165 kommunizieren zu können. Das Netzwerk 165 kann Computernetzwerke, wie z. B. das Internet, lokale Netzwerke, regionale Netzwerke und Großraumnetzwerke oder sonstige Bereichsnetzwerke, Intranets, Satellitennetzwerke oder sonstige Computernetzwerke, wie z. B. sprach- oder datenbezogene Mobilfunknetze und Kombinationen derselben, beinhalten.
Die Sitzungshandhabungselementkomponente 140 kann beispielsweise eine Kommunikationssitzung zwischen dem Datenverarbeitungssystem 105 und dem Client-Computergerät 150 herstellen. Die Sitzungshandhabungselementkomponente 140 kann die Kommunikationssitzung basierend auf Empfangen eines Eingabeaudiosignals von dem Computergerät 150 empfangen. Die Sitzungshandhabungselementkomponente 140 kann die anfängliche Zeitdauer der Sitzungskommunikation basierend auf der Tageszeit, dem Standort des Client-Computergeräts 150, Kontexts des Eingabeaudiosignals oder eines Stimmabdrucks einstellen. Die Sitzungshandhabungselementkomponente 140 kann die Kommunikationssitzung nach Ablauf der Sitzung beenden. Die Authentifizierung wird ggf. nur einmal pro Kommunikationssitzung benötigt. Beispielsweise kann das Datenverarbeitungssystem 105 bestimmen, dass es eine vorherige erfolgreiche Authentifizierung während der Kommunikationssitzung gab, und keine zusätzliche Authentifizierung erfordern, bevor die Kommunikationssitzung abläuft.
Das Netzwerk 165 kann ein Anzeigenetzwerk, wie z. B. eine im Internet verfügbare Untergruppe von Informationsquellen, beinhalten oder bilden, die mit einem Inhaltsanordnungs- oder Suchmaschinenergebnissystem verknüpft sind, oder die auswählbar sind, sodass diese Drittanbieterinhaltselemente als Teil einer Inhaltselementeanordnungskampagne beinhalten. Das Netzwerk 165 kann durch das Datenverarbeitungssystem 105 verwendet werden, um auf Informationsressourcen wie Webseiten, Internetpräsenzen, Domänennamen oder URL-Adressen zuzugreifen, die durch das Client-Computergerät 150 präsentiert, ausgegeben, wiedergegeben oder angezeigt werden können. Über das Netzwerk 165 kann ein Benutzer des Client-Computergeräts 150 beispielsweise auf Informationen oder Daten zugreifen, die durch das Inhaltsanbietercomputergerät 155 oder das Dienstanbietercomputergerät 160 bereitgestellt werden.
Das Netzwerk 165 kann beispielsweise ein Point-to-Point-Netzwerk, ein Broadcast-Netzwerk, ein Großraumnetzwerk, ein lokales Netzwerk, ein Telekommunikationsnetzwerk, ein Datenkommunikationsnetzwerk, ein Computernetzwerk, ein ATM-Netzwerk (Asynchroner Transfermodus), ein SONET-Netzwerk (Synchrones Optisches Netzwerk), ein SDH-Netzwerk (Synchrone Digitale Hierarchie), ein Drahtlosnetzwerk oder ein kabelgebundenes Netzwerk beinhalten und Kombinationen derselben sein. Das Netzwerk 165 kann eine Drahtlosverbindung, wie z. B. einen Infrarotkanal oder ein Satellitenfrequenzband, beinhalten. Die Topologie des Netzwerks 165 kann eine Bus-, Stern- oder Ringnetzwerktopologie beinhalten. Das Netzwerk 165 kann Mobilfunknetze unter Verwendung von einem beliebigen Protokoll oder beliebigen Protokollen beinhalten, die zur Kommunikation mit Mobilgeräten geeignet sind, darunter Advanced Mobile Phone Protocol („AMPS“), Time Division Multiple Access („TDMA“), Code-Division Multiple Access („CDMA“), Global System for Mobile Communication („GSM“), General Packet Radio Services („GPRS“) und Universal Mobile Telecommunications System („UMTS“). Verschiedene Arten von Daten können über verschiedene Protokolle übertragen werden oder es können gleiche Arten von Daten über verschiedene Protokolle übertragen werden.
Das Client-Computergerät 150, das Inhaltsanbietercomputergerät 155 und das Dienstanbietercomputergerät 160 können mindestens ein Logikgerät, wie z. B. ein Computergerät mit einem Prozessor, zur Kommunikation miteinander oder mit dem Datenverarbeitungssystem 105 über das Netzwerk 165 beinhalten. Das Client-Computergerät 150, das Inhaltsanbietercomputergerät 155 und das Dienstanbietercomputergerät 160 können jeweils mindestens einen Server, Prozessor oder Speicher oder eine Vielzahl von Rechenressourcen oder Servern, die sich in mindestens einem Rechenzentrum befinden, beinhalten. Das Client-Computergerät 150, das Inhaltsanbietercomputergerät 155 und das Dienstanbietercomputergerät 160 können jeweils mindestens ein Computergerät, wie z. B. einen Desktop-Computer, Laptop, Tablet, persönlichen digitalen Assistenten, Smartphone, tragbaren Computer, Thin Client-Computer, virtuellen Server oder ein anderes Computergerät, beinhalten.
Das Client-Computergerät 150 kann mindestens einen Sensor 151, mindestens einen Wandler 152, mindestens einen Audiotreiber 153 und mindestens einen Lautsprecher 154 beinhalten. Der Sensor 151 kann ein Mikrofon oder einen Audioeingabesensor beinhalten. Der Sensor 151 kann zudem mindestens einen von einem GPS-Sensor, Näherungssensor, Umgebungslichtsensor, Temperatursensor, Bewegungssensor, Beschleunigungsmesser oder Gyroskop beinhalten. Der Wandler 152 kann das Audioeingabesignal in ein elektronisches Signal umwandeln. Der Audiotreiber 153 kann ein Script oder Programm beinhalten, das von einem oder mehreren Prozessoren des Client-Computers 150 ausgeführt wird, um den Sensor 151, den Wandler 152 oder den Audiotreiber 153 neben anderen Komponenten des Client-Computers 150 zu steuern, um Audioeingaben zu verarbeiten oder Audioausgaben bereitzustellen. Der Lautsprecher 154 kann das Audioausgabesignal übertragen.
Das Client-Computergerät 150 kann einem Endbenutzer zugeordnet sein, der Sprachabfragen als Audioeingabe in das Client-Computergerät 150 (über den Sensor 151) eingibt und eine Audioausgabe in Form einer computergenerierten Stimme empfängt, die von dem Datenverarbeitungssystem 105 (oder dem Inhaltsanbietercomputergerät 155 oder dem Dienstanbietercomputergerät 160) für das Client-Computergerät 150 bereitgestellt werden kann, die von dem Lautsprecher 154 ausgegeben wird. Die computergenerierte Stimme kann Aufzeichnungen von einer realen Person oder einer computergenerierten Sprache beinhalten.
Das Inhaltsanbietercomputergerät 155 kann audiobasierte Inhaltselemente zum Anzeigen durch das Client-Computergerät 150 als ein Audioausgabeinhaltselement bereitstellen. Das Inhaltselement kann ein Angebot für eine Ware oder eine Dienstleistung, wie z. B. eine sprachbasierte Meldung, wie folgt beinhalten: „Möchten Sie, dass ich für Sie ein Taxi bestelle?“ Beispielsweise kann das Inhaltsanbietercomputergerät 155 einen Arbeitsspeicher beinhalten, um eine Reihe von Audioinhaltselementen zu speichern, die in Reaktion auf eine sprachbasierte Anfrage bereitgestellt werden. Das Inhaltsanbietercomputergerät 155 kann auch audiobasierte Inhaltselemente (oder andere Inhaltselemente) an das Datenverarbeitungssystem 105 bereitstellen, wo diese in dem Datenbehälter 145 gespeichert werden können. Das Datenverarbeitungssystem 105 kann die Audioinhaltselemente auswählen und die Audioinhaltselemente an das Client-Computergerät 155 bereitstellen (oder das Inhaltsanbietercomputergerät 150 anweisen, diese bereitzustellen). Der Inhalt kann Sicherheitsfragen beinhalten, die generiert werden, um den Benutzer des Client-Computergeräts 150 zu authentifizieren. Die audiobasierten Inhaltselemente können ausschließlich Audio sein oder mit Text-, Bild- oder Videodaten kombiniert sein.
Das Dienstanbietercomputergerät 160 kann mindestens eine Dienstanbieterprozessorkomponente (NLP) 161 für natürliche Sprache und mindestens eine Dienstanbieterschnittstelle 162 beinhalten. Die Dienstanbieter-NLP-Komponente 161 (oder andere Komponenten, wie z. B. eine Direktaktions-API des Dienstanbietercomputergeräts 160), kann das Client-Computergerät 150 (über das Datenverarbeitungssystem 105 oder durch Umgehen des Datenverarbeitungssystems 105) ansteuern, um eine hin und her gehende Echtzeitsprach- oder audiobasierte Konversation (z. B. eine Sitzung) zwischen dem Client-Computergerät 150 und dem Dienstanbietercomputergerät 160 zu erzeugen. Die Dienstanbieterschnittstelle 162 kann beispielsweise Datennachrichten an die Direktaktions-API 135 des Datenverarbeitungssystems 105 empfangen oder an diese bereitstellen. Das Dienstanbietercomputergerät 160 und das Inhaltsanbietercomputergerät 155 können mit der gleichen Entität verknüpft sein. Beispielsweise kann das Dienstanbietercomputergerät 155 Inhalte für einen Fahrgemeinschaftsdienst erzeugen, speichern oder bereitstellen, und das Dienstanbietercomputergerät 160 kann eine Sitzung mit dem Client-Computergerät 150 herstellen, um die Bereitstellung eines Taxis oder Autos des Fahrgemeinschaftsdienstes zu veranlassen, den Endbenutzer des Client-Computers 150 abzuholen. Das Datenverarbeitungssystem 105 kann über die Direktaktions-API 135, die NLP-Komponente 110 oder andere Komponenten zudem die Sitzung mit dem Client-Computergerät herstellen, einschließlich oder unter Umgehung des Dienstanbietercomputergeräts 160, um z. B. die Bereitstellung eines Taxis oder Autos des Fahrgemeinschaftsdienstes zu veranlassen.
Das Dienstanbietergerät 160, das Inhaltsanbietgerät 155 und das Datenverarbeitungssystem 105 können eine Konversation-API 136 beinhalten. Der Endbenutzer kann über eine Sprachkonversation mit den Inhalten und dem Datenverarbeitungssystem 105 über eine Kommunikationssitzung interagieren. Die Sprachkonversation kann zwischen dem Client-Gerät 150 und der Konversations-API 136 erfolgen. Die Konversations-API 136 kann durch das Datenverarbeitungssystem 105, den Dienstanbieter 160 oder Inhaltsanbieter 155 ausgeführt werden. Das Datenverarbeitungssystem 105 kann zusätzliche Informationen über die Interaktion des Endbenutzers mit dem Inhalt direkt erhalten, wenn das Datenverarbeitungssystem die Konversation-API 136 ausführt. Wenn der Dienstanbieter 160 oder der Inhaltsanbieter 155 die Konversations-API 136 ausführen, kann die Kommunikationssitzung entweder durch das Datenverarbeitungssystem 105 geroutet werden, oder die jeweiligen Entitäten können Datenpakete der Kommunikationssitzung zu dem Datenverarbeitungssystem 105 weiterleiten. Die hierin beschriebene Netzwerksicherheitsanwendung kann die Kommunikationssitzung beenden, wenn die Konversation-API 136 durch das Datenverarbeitungssystem 105 ausgeführt wird. Die Netzwerksicherheitsvorrichtung 105 kann Anweisungen zu dem Dienstanbieter 160 oder Inhaltsanbieter 155 senden, um die Kommunikationssitzung zu beenden (oder anderweitig zu deaktivieren), wenn der Dienstanbieter 160 oder Inhaltsanbieter 155 die Konversations-API 136 ausführt.
Der Datenbehälter 145 kann eine oder mehrere lokale oder verteilte Datenbanken beinhalten, und kann ein Datenbankverwaltungssystem beinhalten. Der Datenbehälter 145 kann Computerdatenspeicher oder Arbeitsspeicher beinhalten, und kann einen oder mehrere Parameter 146, eine oder mehrere Richtlinien 147, Inhaltsdaten 148 und Vorlagen 149 mit anderen Daten speichern. Die Parameter 146, Richtlinien 147 und Vorlagen 149 können Informationen, wie z. B. Regeln über eine sprachbasierte Sitzung zwischen dem Client-Computergerät 150 und dem Datenverarbeitungssystem 105 (oder dem Dienstanbietercomputergerät 160) beinhalten. Die Inhaltsdaten 148 können Inhaltselemente für eine Audioausgabe oder verknüpfte Metadaten sowie eingegebene Audionachrichten, die Teil von einer oder mehreren Kommunikationssitzungen mit dem Client-Computergerät 150 sein können, beinhalten.
Das Datenverarbeitungssystem 105 kann eine Anwendung, ein Script oder ein Programm beinhalten, das auf dem Client-Computergerät 150 installiert ist, wie beispielsweise eine Anwendung, um eingegebene Audiosignale an die Schnittstelle 115 des Datenverarbeitungssystems 105 zu kommunizieren, und um Komponenten des Client-Computergeräts anzusteuern, um ausgegebene Audiosignale wiederzugeben. Das Datenverarbeitungssystem 105 kann Datenpakete oder ein anderes Signal empfangen, das ein Audioeingabesignal beinhaltet oder identifiziert. Beispielsweise kann das Datenverarbeitungssystem 105 die NLP-Komponente 110 ausführen oder ausführen lassen, um das Audioeingabesignal zu empfangen. Das Audioeingabesignal kann durch den Sensor 151 (z. B. ein Mikrofon) von dem Client-Computergerät erkannt werden. Die NLP-Komponente 110 kann das Audioeingabesignal durch Vergleichen des Eingabesignals mit einer gespeicherten repräsentativen Reihe von Audiowellenformen und Auswählen der größten Übereinstimmungen in erkannten Text umwandeln. Die repräsentativen Wellenformen können über eine große Gruppe von Eingabesignalen generiert werden. Der Benutzer kann einige der Eingabesignale bereitstellen. Sobald das Audiosignal in erkannten Text umgewandelt wurde, kann die NLP-Komponente 110 den Text mit Wörtern abgleichen, die z. B. über eine Lernphase mit Aktionen verknüpft sind, die das System 200 vornehmen kann. Über den Wandler 152, den Audiotreiber 153 oder andere Komponenten kann das Client-Computergerät 150 das Audioeingabesignal dem Datenverarbeitungssystem 105 (z. B. über das Netzwerk 165) bereitstellen, wo es (z. B. durch die Schnittstelle 115) empfangen werden kann, und der NLP-Komponente 110 bereitgestellt, oder in dem Datenbehälter 145 als Inhaltsdaten 148 gespeichert werden kann.
Die NLP-Komponente 110 kann das Audioeingabesignal erhalten. Von dem Eingabeaudiosignal kann die NLP-Komponente 110 mindestens eine Anfrage oder mindestens ein Auslöserschlüsselwort identifizieren, das der Anfrage entspricht. Die Anfrage kann Absicht oder Gegenstand des Eingabeaudiosignals anzeigen. Das Auslöserschlüsselwort kann eine Aktionsart anzeigen, die voraussichtlich vorzunehmen ist. Die NLP-Komponente 110 kann beispielsweise das Eingabeaudiosignal parsen, um mindestens eine Anfrage zu identifizieren, am Abend aus essen und ins Kino zu gehen. Das Auslöserschlüsselwort kann mindestens ein Wort, eine Phrase, einen Wortstamm oder ein Teilwort oder eine Ableitung beinhalten, das bzw. die eine vorzunehmende Aktion anzeigen. Das Auslöserschlüsselwort „gehen“ oder „gehen zu“ von dem Eingabeaudiosignal kann beispielsweise eine Notwendigkeit für einen Transport anzeigen. Bei diesem Beispiel drückt das Eingabeaudiosignal (oder die identifizierte Anfrage) nicht direkt eine Absicht für einen Transport aus, das Auslöserschlüsselwort zeigt jedoch an, dass ein Transport eine Zusatzaktion für mindestens eine andere Aktion ist, die durch die Anfrage angezeigt wird.
Die Inhaltsauswahlelementkomponente 125 kann diese Informationen aus dem Datenbehälter 145 erhalten, wo sie als Teil der Inhaltsdaten 148 gespeichert werden können. Die Inhaltsauswahlelementkomponente 125 kann den Datenbehälter 145 abfragen, um das Inhaltselement, z. B. aus den Inhaltsdaten 148, auszuwählen oder anderweitig zu identifizieren. Die Inhaltsauswahlelementkomponente 125 kann auch das Inhaltselement aus dem Inhaltsanbietercomputergerät 155 auswählen. Beispielsweise kann das Inhaltsanbietercomputergerät 155, das auf eine Anfrage des Datenverarbeitungssystems 105 reagiert, dem Datenverarbeitungssystem 105 (oder einer Komponente desselben) ein Inhaltselement für eine spätere Ausgabe durch das Client-Computergerät 150 bereitstellen.
Die Audiosignalgeneratorkomponente 130 kann ein Ausgabesignal generieren oder anderweitig erhalten, welches das Inhaltselement beinhaltet, das auf die dritte Aktion reagiert. Beispielsweise kann das Datenverarbeitungssystem 105 die Audiosignalgeneratorkomponente ausführen, um ein dem Inhaltselement entsprechendes Ausgabesignal zu generieren oder zu erzeugen. Die Schnittstelle 115 des Datenverarbeitungssystems 105 kann ein oder mehrere Datenpakete mit dem Ausgabesignal über das Computernetzwerk 165 an das Client-Computergerät 150 bereitstellen oder übertragen. Beispielsweise kann das Datenverarbeitungssystem 105 das Ausgabesignal aus dem Datenbehälter 145 oder aus der Audiosignalgeneratorkomponente 130 an das Client-Computergerät 150 bereitstellen. Das Datenverarbeitungssystem 105 kann zudem über Datenpaketübertragungen das Inhaltsanbietercomputergerät 155 oder das Dienstanbietercomputergerät 160 anweisen, das Ausgabesignal an das Client-Computergerät 150 bereitzustellen. Das Ausgabesignal kann als ein oder mehrere Datenpakete (oder ein anderes Kommunikationsprotokoll) von dem Datenverarbeitungssystem 105 (oder einem anderen Datenverarbeitungsgerät) erhalten, generiert, umgewandelt oder an das Client-Computergerät 150 übertragen werden.
Die Inhaltsauswahlelementkomponente 125 kann das Inhaltselement für die Aktion des Eingabeaudiosignals im Rahmen eines Echtzeit-Inhaltsauswahlprozesses auswählen. Beispielsweise kann das Inhaltselement dem Client-Computergerät zum Übertragen als Audioausgabe in Klartext als direkte Reaktion auf das Eingabeaudiosignal bereitgestellt werden. Der Echtzeit-Inhaltsauswahlprozess zum Identifizieren des Inhaltselements und zum Bereitstellen des Inhaltselements an das Client-Computergerät 150 kann innerhalb einer Minute oder weniger ab dem Zeitpunkt des Eingabeaudiosignals erfolgen und als Echtzeit betrachtet werden.
Das dem Inhaltselement entsprechende Ausgabesignal, z. B. ein Ausgabesignal, das von der Audiosignalgeneratorkomponente 130 erhalten oder generiert wird, die über die Schnittstelle 115 und das Computernetzwerk 165 an das Client-Computergerät 150 übertragen wird, kann dazu führen, dass das Client-Computergerät 150 den Audiotreiber 153 ausführt, um den Lautsprecher 154 anzusteuern und eine dem Ausgabesignal entsprechende akustische Welle zu generieren. Die akustische Welle kann Wörter beinhalten, die dem Inhalt entsprechen.
Die Direktaktions-API 135 des Datenverarbeitungssystems kann, basierend auf dem Auslöserschlüsselwort, Aktionsdatenstrukturen generieren. Die Direktaktions-API 135 kann eine bestimmte Aktion ausführen, um die von dem Datenverarbeitungssystem 105 bestimmte Absicht des Endbenutzers zu erfüllen. In Abhängigkeit von der Aktion, die in deren Eingaben spezifiziert ist, kann die Direktaktions-API 135 einen Code oder ein Dialogscript ausführen, das die Parameter identifiziert, die benötigt werden, um eine Benutzeranfrage zu erfüllen. Die Aktionsdatenstruktur kann in Reaktion auf die Anfrage generiert werden. Die Aktionsdatenstruktur kann in den Nachrichten enthalten sein, die an das Dienstanbietercomputergerät 160 übertragen oder von diesem empfangen werden. Basierend auf der Anfrage, die von der NLP-Komponente 110 analysiert wird, kann die Direktaktions-API 135 bestimmen, an welche von den Dienstanbietercomputergeräten 160 die Nachricht gesendet werden soll. Wenn beispielsweise ein Eingabeaudiosignal „Bestellen Sie ein Taxi“ beinhaltet, kann die NLP-Komponente 110 das Auslöserwort „Bestellen“ und die Anfrage eines Taxis identifizieren. Die Direktaktions-API 135 kann die Anfrage in eine Aktionsdatenstruktur packen und als Nachricht an ein Dienstanbietercomputergerät 160 eines Taxidienstes übertragen. Die Nachricht kann auch an die Inhaltsauswahlelementkomponente 125 weitergeleitet werden. Die Aktionsdatenstruktur kann Informationen zum Abschließen der Anfrage beinhalten. In diesem Beispiel können die Informationen einen Abholort und einen Zielort beinhalten. Die Direktaktions-API 135 kann eine Vorlage 149 aus dem Datenbehälter 145 abrufen, um zu bestimmen, welche Felder in die Aktionsdatenstruktur aufgenommen werden sollen. Die Direktaktions-API 135 kann notwendige Parameter bestimmen und die Informationen in eine Aktionsdatenstruktur verpacken. Die Direktaktions-API 135 kann Inhalte aus dem Datenbehälter 145 abrufen, um Informationen für die Felder der Datenstruktur zu erhalten. Die Direktaktions-API 135 kann die Felder der Vorlage mit diesen Informationen füllen, um die Datenstruktur zu generieren. Die Direktaktions-API 135 kann die Felder auch mit Daten aus dem Eingabeaudiosignal füllen. Die Vorlagen 149 können für Kategorien von Dienstanbietern standardisiert oder für bestimmte Dienstanbieter standardisiert werden. Beispielsweise können Fahrgemeinschaftsdienstanbieter die folgende standardisierte Vorlage 149 verwenden, um die Datenstruktur zu erzeugen: {client_device_identifier; authentication_credentials; pick up location; destination location; no_passengers; service_level}. Die Aktionsdatenstruktur kann dann an eine andere Komponente, wie z. B. die Inhaltsauswahlkomponente 125, oder an das Dienstanbietercomputergerät 160 gesendet werden, um ausgefüllt zu werden.
Die Direktaktions-API 135 kann mit dem Dienstanbietercomputergerät 160 (das mit dem Inhaltselement in Verbindung gebracht werden kann, wie z. B. einem Fahrgemeinschaftsunternehmen) kommunizieren, um ein Taxi oder ein Fahrgemeinschaftsfahrzeug für den Standort des Kinos zu dem Zeitpunkt zu bestellen, an dem der Film endet. Das Datenverarbeitungssystem 105 kann diese Standort- oder Zeitinformationen als Teil des Datenpakets (oder eines anderen Protokolls) erhalten, das auf Datennachrichtenkommunikation mit dem Client-Computergerät 150, dem Datenspeicher 145 oder aus anderen Quellen, wie z. B. dem Dienstanbietercomputergerät 160 oder dem Inhaltsanbietercomputergerät 155, basiert. Die Bestätigung dieses Auftrages (oder eine andere Umwandlung) kann als Audiokommunikation von dem Datenverarbeitungssystem 105 zu dem Client-Computergerät 150 in Form eines Ausgabesignals von dem Datenverarbeitungssystem 105 erfolgen, das das Client-Computergerät 150 ansteuert, um Audioausgaben, wie z. B. „großartig, Sie haben ein Auto, das um 23 Uhr außerhalb des Kinos auf Sie wartet“, wiederzugeben. Das Datenverarbeitungssystem 105 kann über die Direktaktions-API 135 mit dem Dienstanbietercomputergerät 160 kommunizieren, um den Auftrag für das Auto zu bestätigen.
Das Datenverarbeitungssystem 105 kann die Antwort (z. B. „Ja bitte“) auf den Inhalt erhalten („Möchten Sie eine Heimfahrt vom Kino?“) und eine paketbasierte Datennachricht an die Dienstanbieter-NLP-Komponente 161 (oder eine andere Komponente des Dienstanbietercomputergeräts) routen. Diese paketbasierte Datennachricht kann dazu führen, dass das Dienstanbietercomputergerät 160 eine Umwandlung vornimmt, z. B. um eine Reservierung für die Abholung eines Autos außerhalb des Kinos vorzunehmen. Diese Umwandlung - oder bestätigte Bestellung - (oder jede andere Umwandlung einer anderen Aktion des Threads) kann vor Abschluss einer oder mehrerer Aktionen des Threads erfolgen, wie z. B. vor Abschluss des Films, sowie nach Abschluss einer oder mehrerer Aktionen des Threads, wie z. B. nach dem Abendessen.
Die Direktaktions-API 135 kann Inhaltsdaten 148 (oder Parameter 146 oder Richtlinien 147) von dem Datenbehälter 145 sowie Daten empfangen, die mit Zustimmung des Endbenutzers von dem Client-Computergerät 150 empfangen werden, um Standort, Zeit, Benutzerkonten, logistische oder andere Informationen zu bestimmen, um ein Auto aus dem Fahrgemeinschaftsdienst zu reservieren. Die Inhaltsdaten 148 (oder Parameter 146 oder Richtlinien 147) können in der Aktionsdatenstruktur enthalten sein. Wenn der in der Aktionsdatenstruktur enthaltene Inhalt Endbenutzerdaten beinhaltet, die für die Authentifizierung verwendet werden, können die Daten durch eine Hash-Funktion hindurchgeleitet werden, bevor sie in dem Datenbehälter 145 gespeichert werden. Unter Verwendung der Direktaktions-API 135 kann das Datenverarbeitungssystem 105 auch mit dem Dienstanbietercomputergerät 160 kommunizieren, um die Umwandlung abzuschließen, indem es in diesem Beispiel die Reservierung für die Abholung der Fahrgemeinschaft vornimmt.
Das Datenverarbeitungssystem 105 kann Aktionen, die mit Inhaltselementen verknüpft sind, abbrechen. Der Abbruch der Aktionen kann in Reaktion auf die Netzwerksicherheitsvorrichtung 123 erfolgen, die einen Alarmzustand generiert. Die Netzwerksicherheitsvorrichtung 123 kann einen Alarmzustand generieren, wenn die Netzwerksicherheitsvorrichtung 123 vorhersagt, dass das Eingabeaudiosignal schädlich, oder nicht anderweitig durch einen autorisierten Endbenutzer des Client-Computergeräts 150 bereitgestellt wird.
Das Datenverarbeitungssystem 105 kann eine Netzwerksicherheitsvorrichtung 123 beinhalten, mit dieser eine Schnittstelle ausbilden oder ansonsten damit kommunizieren. Die Netzwerksicherheitsanwendung 123 kann Signalübertragungen zwischen dem Client-Computergerät 150 und dem Inhaltsanbietercomputergerät 155 authentifizieren. Die Signalübertragungen können die Audioeingaben von dem Client-Computergerät 150 und die Antwort-Audiosignale von dem Client-Computergerät 150 sein. Die Antwort-Audiosignale können als Antwort auf Inhalte generiert werden, die das Datenverarbeitungssystem 105 während einer oder mehrerer Kommunikationssitzungen an das Client-Computergerät 150 überträgt. Die Netzwerksicherheitsvorrichtung 123 kann die Signalübertragung authentifizieren, indem sie die Aktionsdatenstruktur mit einer oder mehreren Eigenschaften der Eingabeaudiosignale und Antwort-Audiosignale vergleicht.
Die Netzwerksicherheitsvorrichtung 123 kann Merkmale des Eingabeaudiosignals bestimmen. Die Merkmale des Audiosignals können Stimmabdruck, ein Schlüsselwort, eine Anzahl von erkannten Stimmen, eine Identifikation einer Audioquelle und einen Standort einer Audioquelle beinhalten. Beispielsweise kann die Netzwerksicherheitsvorrichtung 123 die spektralen Komponenten des Eingabeaudiosignals messen, um einen Stimmabdruck der Stimme zu generieren, die für das Eingabeaudiosignal verwendet wird. Der in Reaktion auf das Eingangsaudiosignal erzeugte Stimmabdruck kann mit einem gespeicherten Stimmabdruck verglichen werden, der durch das Datenverarbeitungssystem 105 gespeichert wird. Der gespeicherte Stimmabdruck kann ein authentifizierter Stimmabdruck sein - beispielsweise ein Stimmabdruck, der durch einen authentifizierten Benutzer des Client-Computergeräts 150 während einer Einrichtungsphase des Systems generiert wird.
Die Netzwerksicherheitsvorrichtung 123 kann auch Nicht-Audioeigenschaften des Eingabeaudiosignals bestimmen. Das Client-Computergerät 150 kann Nicht-Audioinformationen in das Eingabeaudiosignal einbinden. Die Nicht-Audioinformationen können ein Standort sein, wie er durch das Client-Computergerät 150 bestimmt oder angegeben wird. Die Nicht-Audioinformationen können eine Client-Computergerät 150-Kennung beinhalten. Nicht-Audioeigenschaften oder -informationen können auch physische Authentifizierungsgeräte, wie z. B. Beantwortung der Sicherheitsfrage mit einem Einmal-Kennwort-Gerät oder einem Fingerabdrucklesegerät, beinhalten.
Die Netzwerksicherheitsvorrichtung 123 kann einen Alarmzustand einstellen, wenn die Eigenschaften des Eingabeaudiosignals der Aktionsdatenstruktur nicht entsprechen. Beispielsweise kann die Netzwerksicherheitsvorrichtung 123 Nichtübereinstimmungen zwischen der Aktionsdatenstruktur und den Eigenschaften des Eingabeaudiosignals erkennen. In einem Beispiel kann das Eingabeaudiosignal einen Standort des Client-Computergeräts 150 beinhalten. Die Aktionsdatenstruktur kann einen vorhergesagten Standort des Endbenutzers beinhalten, z. B. einen Standort, der auf dem allgemeinen Standort des Smartphones des Endbenutzers basiert. Wenn die Netzwerksicherheitsvorrichtung 123 bestimmt, dass der Standort des Client-Computergeräts 150 nicht innerhalb eines zuvor definierten Bereichs des in der Aktionsdatenstruktur enthaltenen Standortes liegt, kann die Netzwerksicherheitsvorrichtung 123 einen Alarmzustand einstellen. In einem anderen Beispiel kann die Netzwerksicherheitsvorrichtung 123 den Stimmabdruck des Eingabeaudiosignals mit einem Stimmabdruck des in dem Datenbehälter 145 gespeicherten, und in der Aktionsdatenstruktur enthaltenen Endbenutzers vergleichen. Wenn die zwei Stimmabdrücke nicht übereinstimmen, kann die Netzwerksicherheitsvorrichtung 123 einen Alarmzustand einstellen.
Die Netzwerksicherheitsvorrichtung 123 kann bestimmen, welche Eingabeaudiosignaleigenschaften die Authentifizierung basierend auf der Antwort auf die Anfrage in dem Eingabeaudiosignal basieren. Für Authentifizierungen mit den unterschiedlichen Eigenschaften kann es unterschiedliche Rechenanforderungen geben. Beispielsweise kann Vergleichen von Stimmabdrücken rechenmäßig intensiver als Vergleichen von zwei Standorten sein. Auswählen von Authentifizierungsverfahren, die rechenintensiv sind, können überhöht rechenintensiv sein, wenn sie ungeeignet sind. Die Netzwerksicherheitsvorrichtung 123 kann die Effizienz des Datenverarbeitungssystems 105 verbessern, indem sie die für die Authentifizierung verwendeten Eigenschaften anhand der Anfrage auswählt. Wenn beispielsweise das Sicherheitsrisiko des Eingabeaudiosignals gering ist, kann die Netzwerksicherheitsvorrichtung 123 ein Authentifizierungsverfahren mit einer nicht rechenintensiven Eigenschaft auswählen. Die Netzwerksicherheitsvorrichtung 123 kann die Eigenschaft anhand der Kosten auswählen, die für die Erledigung der Anfrage erforderlich sind. Beispielsweise kann eine Stimmabdruckeigenschaft verwendet werden, wenn das Eingabeaudiosignal „Bestellen Sie einen neuen Laptop-Computer“ entspricht, jedoch eine Standorteigenschaft auswählen, wenn das Eingabeaudiosignal „Bestellen Sie ein Taxi“ entspricht. Die Auswahl der Eigenschaft kann basierend auf der Zeit oder der Rechenintensität erfolgen, die erforderlich ist, um die Anfrage abzuschließen. Eigenschaften, die mehr Rechenressourcen verbrauchen, können verwendet werden, um Eingabeaudiosignale zu authentifizieren, die Anfragen generieren, die mehr Rechenressourcen erfordern. Beispielswiese kann das Eingabeaudiosignal „Ok, ich würde gerne zum Abendessen und ins Kino gehen“, mehrere Aktionen und Anfragen sowie mehrere Dienstanbieter 160 beinhalten. Das Eingabeaudiosignal kann Anfragen generieren, um nach möglichen Filmen zu suchen, nach möglichen Restaurantverfügbarkeiten zu suchen, Restaurantreservierungen vorzunehmen und Kinokarten zu kaufen. Der Abschluss dieses Eingabeaudiosignals ist sowohl rechenintensiver als auch langsamer als der Abschluss des Eingabeaudiosignals „Ok, wie spät ist es?“
Die Netzwerksicherheitsvorrichtung 123 kann auch einen Alarmzustand basierend auf der in dem Eingabeaudiosignal enthaltenen Anfrage einstellen. Die Netzwerksicherheitsvorrichtung 123 kann automatisch einen Alarmzustand einstellen, wenn die Übertragung der Aktionsdatenstruktur an ein Dienstanbietercomputergerät 160 zu einer finanziellen Belastung des Endbenutzers des Client-Computergeräts 150 führen kann. Beispielsweise kann ein erstes Eingabeaudiosignal „Ok, bestellen Sie eine Pizza“ eine monetäre Belastung erzeugen, während ein zweites Eingabeaudiosignal „Ok, wie spät ist es“, dies nicht tut. In diesem Beispiel kann die Netzwerksicherheitsvorrichtung 123 automatisch einen Alarmzustand einstellen, wenn sie eine Aktionsdatenstruktur empfängt, die dem ersten Eingabeaudiosignal entspricht, und keinen Alarmzustand einstellen, wenn sie eine Aktionsdatenstruktur empfängt, die dem zweiten Eingabeaudiosignal entspricht.
Die Netzwerksicherheitsvorrichtung 123 kann einen Alarmzustand einstellen, der auf der Bestimmung basiert, dass die Aktionsdatenstruktur für ein bestimmtes Dienstanbietergerät 160 bestimmt ist. Beispielsweise kann der Endbenutzer des Client-Computergeräts 150 Einschränkungen einstellen, mit welchen Dienstanbietern das Datenverarbeitungssystem 105 im Namen des Endbenutzers ohne weitere Autorisierung interagieren darf. Wenn der Endbenutzer beispielsweise ein Kind hat, kann der Endbenutzer, um zu verhindern, dass das Kind Spielzeug über einen Dienstanbieter kauft, der Spielzeug verkauft, eine Einschränkung einstellen, dass Aktionsdatenstrukturen nicht ohne weitere Authentifizierung an den Spielzeugverkäufer übertragen werden können. Wenn die Netzwerksicherheitsvorrichtung 123 eine Aktionsdatenstruktur empfängt, die für ein bestimmtes Dienstanbietergerät 160 bestimmt ist, kann die Netzwerksicherheitsanwendung 123 eine Richtlinie in dem Datenbehälter nachschlagen, um zu bestimmen, ob ein Alarmzustand automatisch eingestellt werden soll.
Die Netzwerksicherheitsvorrichtung 123 kann Hinweise auf den Alarmzustand an die Inhaltsauswahlkomponente 125 senden. Die Inhaltsauswahlkomponente 125 kann ein Inhaltselement auswählen, das an das Client-Computergerät 150 übertragen werden soll. Das Inhaltselement kann eine auditive Anfrage für eine Passphrase oder zusätzliche Informationen zur Authentifizierung des Eingabeaudiosignals sein. Das Inhaltselement kann an das Client-Computergerät 150 übertragen werden, wo der Audiotreiber 153 das Inhaltselement über den Wandler 152 in Schallwellen umwandelt. Der Endbenutzer des Client-Computergeräts 150 kann auf das Inhaltselement reagieren. Die Reaktion des Endbenutzers kann von dem Sensor 151 digitalisiert und an das Datenverarbeitungssystem 105 übertragen werden. Die NLP-Komponente 110 kann das Antwort-Audiosignal verarbeiten und die Antwort an die Netzwerksicherheitsvorrichtung 123 bereitstellen. Die Netzwerksicherheitsvorrichtung 123 kann eine Eigenschaft des Antwort-Audiosignals mit einem Merkmal des Eingabeaudiosignals oder der Aktionsdatenstruktur vergleichen. Beispielsweise kann das Inhaltselement eine Anfrage nach einer Passphrase sein. Die NLP-Komponente 110 kann den Text des Antwort-Audiosignals erkennen und den Text an die Netzwerksicherheitsvorrichtung 123 weiterleiten. Die Netzwerksicherheitsvorrichtung 123 kann eine Hash-Funktion auf dem Text ausführen. Nachdem die authentifizierte Passphrase des Endbenutzers mit der gleichen Hash-Funktion gehasht wurde, kann sie in dem Datenbehälter 145 gespeichert werden. Die Netzwerksicherheitsvorrichtung 123 kann den gehashten Text mit der sicheren, gehashten Passphrase vergleichen. Wenn der gehashte Text und die gehashte Passphrase übereinstimmen, kann die Netzwerksicherheitsvorrichtung 123 das Eingabeaudiosignal authentifizieren. Wenn der gehashte Text und die gehashte Passphase nicht übereinstimmen, kann die Netzwerksicherheitsvorrichtung 123 einen zweiten Alarmzustand einstellen.
Die Netzwerksicherheitsvorrichtung 123 kann Kommunikationssitzungen beenden. Die Netzwerksicherheitsvorrichtung 123 kann Anweisungen an ein Dienstanbietercomputergerät 160 übertragen, um eine Kommunikationssitzung, die mit dem Client-Computergerät 150 hergestellt wurde, zu deaktivieren, zu unterbrechen oder anderweitig zu beenden. Das Beenden der Kommunikationssitzung kann in Reaktion auf das Einstellen eines zweiten Alarmzustands durch die Netzwerksicherheitsvorrichtung 123 erfolgen. Die Netzwerksicherheitsvorrichtung 123 kann die Fähigkeit des Computergeräts, Kommunikationssitzungen über das Datenverarbeitungssystem 105 mit einem Dienstanbietercomputergerät 160 zu generieren, deaktivieren. Wenn beispielsweise die Netzwerksicherheitsvorrichtung 123 einen zweiten Alarmzustand in Reaktion auf das Eingabeaudiosignal „Ok, bestellen Sie ein Taxi“ einstellt, kann die Netzwerksicherheitsvorrichtung 123 die Möglichkeit von Kommunikationssitzungen, die zwischen dem Client-Computergerät 150 und dem Taxidienstanbietergerät hergestellt wird, deaktivieren. Ein autorisierter Benutzer kann das Taxidienstanbietergerät zu einem späteren Zeitpunkt erneut autorisieren.
2 veranschaulicht ein Ablaufdiagramm, das einen exemplarischen Betrieb eines Systems 200 zum Ausführen von Authentifizierung von Audiosignalen veranschaulicht. Das System 200 kann eine oder mehrere der oben beschriebenen Komponenten oder Elemente in Bezug auf System 100 beinhalten. Das System 200 kann z. B. ein Datenverarbeitungssystem 105 beinhalten, das mit einem Client-Computergerät 150 und einem Dienstanbietercomputergerät 160, z. B. über das Netzwerk 165 kommuniziert.
Der Betrieb des Systems 200 kann damit beginnen, dass das Client-Computergerät 150 ein Eingabeaudiosignal 201 an das Datenverarbeitungssystem 105 überträgt. Sobald das Datenverarbeitungssystem 105 das Eingabeaudiosignal empfängt, kann die NLP-Komponente 110 des Datenverarbeitungssystems 105 das Eingabeaudiosignal in eine Anfrage und ein Auslöserschlüsselwort parsen, das der Anfrage entspricht. Über das Datenverarbeitungssystem 105 kann eine Kommunikationssitzung zwischen dem Client-Computergerät 150 und dem Dienstanbietercomputergerät 160 hergestellt werden.
Die Direktaktions-API 135 kann basierend auf der Anfrage eine Aktionsdatenstruktur generieren. Beispielsweise kann das Eingabeaudiosignal „Ich möchte ins Kino fahren“ lauten. In diesem Beispiel kann die Direktaktions-API 135 bestimmen, ob die Anfrage für einen Autodienst ist. Die Direktaktions-API 135 kann den aktuellen Standort des Client-Computergeräts 150 bestimmen, der das Eingabeaudiosignal generierte, und den Standort des nächstgelegenen Kinos bestimmen. Die Direktaktions-API 135 kann eine Aktionsdatenstruktur generieren, die den Standort des Client-Computergeräts 150 als Abholort für den Autodienst und den Standort des nächstgelegenen Kinos als Zielort des Autodienstes beinhaltet. Die Aktionsdatenstruktur kann auch eine oder mehrere Eigenschaften des Eingabeaudiosignals beinhalten. Das Datenverarbeitungssystem 105 kann die Aktionsdatenstruktur an die Netzwerksicherheitsvorrichtung weiterleiten, um zu bestimmen, ob ein Alarmzustand eingestellt werden sollte.
Erkennt die Netzwerksicherheitsvorrichtung einen Alarmzustand, kann das Datenverarbeitungssystem 105 über die Inhaltsauswahlkomponente 125 ein Inhaltselement auswählen. Das Datenverarbeitungssystem 105 kann das Inhaltselement 202 an das Client-Computergerät 150 bereitstellen. Das Inhaltselement 202 kann dem Client-Computergerät 150 im Rahmen einer Kommunikationssitzung zwischen dem Datenverarbeitungssystem 105 und dem Client-Computergerät 150 bereitgestellt werden. Die Kommunikationssitzung kann den Ablauf und das Empfinden eines Echtzeitgesprächs von Mensch zu Mensch haben. Beispielsweise kann das Inhaltselement Audiosignale beinhalten, die auf dem Client-Computergerät 150 wiedergegeben werden. Der Endbenutzer kann auf das Audiosignal reagieren, das durch den Sensor 151 digitalisiert und an das Datenverarbeitungssystem 105 übertragen werden kann. Das Inhaltselement kann eine Sicherheitsfrage, ein Inhaltselement oder eine andere Frage sein, die an das Client-Computergerät 150 übertragen wird. Die Frage kann über den Wandler 152 an den Endbenutzer gestellt werden, der das Eingabeaudiosignal generiert hat. In manchen Implementierungen kann die Sicherheitsfrage basierend auf der bisherigen Interaktion zwischen dem Client-Computergerät 150 und dem Datenverarbeitungssystem 105 erfolgen. Wenn beispielsweise der Benutzer vor dem Übertragen des Eingabeaudiosignals eine Pizza über das System 200 bestellt hat, indem er das Eingabeaudiosignal von „Ok, bestellen Sie eine Pizza“ bereitgestellt hat, könnten die Sicherheitsfragen „Was haben Sie gestern Abend zum Abendessen bestellt“ beinhalten. Das Inhaltselement kann auch die Anfrage zum Bereitstellen eines Kennworts für das Datenverarbeitungssystem 105 beinhalten. Das Inhaltselement kann eine Push-Benachrichtigung an ein zweites Computergerät 150 beinhalten, das mit dem ersten Computergerät 150 verknüpft ist. Beispielsweise kann eine Push-Benachrichtigung, die eine Bestätigung des Eingabeaudiosignals anfordert, an ein Smartphone gesendet werden, das mit dem Client-Computergerät 150 verknüpft ist. Der Benutzer kann die Push-Benachrichtigung auswählen, um zu bestätigen, dass das Eingabeaudiosignal authentisch ist.
Während der Kommunikationssitzung zwischen dem Client-Computergerät 150 und dem Datenverarbeitungssystem 105 kann der Benutzer auf das Inhaltselement antworten. Der Benutzer kann verbal auf das Inhaltselement antworten. Die Antwort kann durch den Sensor 151 digitalisiert und als Antwort-Audiosignal 203, das von einer Vielzahl von Datenpaketen getragen wird, an das Datenverarbeitungssystem 105 übertragen werden. Das auditive Signal kann auch Eigenschaften beinhalten, die von der Netzwerksicherheitsvorrichtung analysiert werden können. Wenn die Netzwerksicherheitsvorrichtung bestimmt, dass ein Alarmzustand basierend auf den Bedingungen des Antwort-Audiosignals fortbesteht, kann die Netzwerksicherheitsvorrichtung eine Nachricht 204 an das Dienstanbietercomputergerät 160 senden. Die Nachricht 204 kann Anweisungen für das Dienstanbietercomputergerät 160 beinhalten, um die Kommunikationssitzung mit dem Client-Computergerät 150 zu deaktivieren.
3 veranschaulicht ein exemplarisches Verfahren 300 zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung. Das Verfahren 300 kann Empfangen von Datenpaketen beinhalten, die ein Eingabeaudiosignal (ACT 302) beinhalten. Beispielsweise kann das Datenverarbeitungssystem die NLP-Komponente ausführen, starten oder aufrufen, um paket- oder andere protokollbasierte Übertragungen über das Netzwerk von dem Client-Computergerät zu empfangen. Die Datenpakete können ein von dem Sensor erkanntes Eingabeaudiosignal beinhalten oder diesem entsprechen, wie z. B. ein Endbenutzer, der in ein Smartphone spricht: „OK, ich möchte heute Abend essen gehen und dann am Abend einen Film anschauen.“
Das Verfahren 300 kann das Identifizieren einer Anfrage und eines Auslöserschlüsselworts innerhalb des Eingabeaudiosignals (ACT 304) beinhalten. Beispielsweise kann die NLP-Komponente das Eingabeaudiosignal analysieren, um Anfragen zu identifizieren (wie z. B. „Abendessen“ oder „Film“ in dem obigen Beispiel) sowie die Schlüsselwörter „gehen“ und „zu gehen“ oder „um zu gehen“, die der Anfrage entsprechen oder sich auf sie beziehen.
Das Verfahren 300 beinhaltet Generieren einer ersten Aktion basierend auf der Anfrage (ACT 306). Die Direktaktions-API kann eine Datenstruktur generieren, die durch das Dienstanbietercomputergerät oder Inhaltsanbietercomputergerät übertragen und verarbeitet werden kann, um die Anfrage des Eingabeaudiosignals zu erfüllen. Wenn beispielsweise das obige Beispiel weitergeführt wird, kann die Direktaktions-API eine erste Aktionsdatenstruktur generieren, die an einen Restaurant-Reservierungsdienst übertragen wird. Die erste Aktionsdatenstruktur kann eine Suche nach einem Restaurant durchführen, das sich in der Nähe des aktuellen Standorts des Client-Computergeräts befindet und andere Spezifikationen erfüllt, die mit dem Benutzer des Client-Computergeräts verknüpft sind (z. B. Küchenarten, die von dem Benutzer des Client-Computergeräts bevorzugt werden). Die Direktaktions-API kann auch einen bevorzugten Zeitpunkt für die Reservierung bestimmen. Beispielsweise kann das Datenverarbeitungssystem bestimmen, dass das bei der Suche ausgewählte Restaurant 15 Minuten entfernt ist und dass die aktuelle Uhrzeit 18:30 Uhr ist. Das Datenverarbeitungssystem kann die bevorzugte Reservierungszeit nach 18:45 Uhr einstellen. In diesem Beispiel kann die erste Aktionsdatenstruktur den Restaurantnamen und die bevorzugte Reservierungszeit beinhalten. Das Datenverarbeitungssystem kann die erste Aktionsdatenstruktur an das Dienstanbietercomputergerät oder das Inhaltsanbietercomputergerät übertragen. ACT 306 kann Generieren von mehreren Aktionsdatenstrukturen beinhalten. Für das obige Eingabeaudiosignal kann eine zweite Aktionsdatenstruktur, die einen Filmtitel und Restaurantnamen beinhaltet, generiert werden, und eine dritte Aktionsdatenstruktur mit Abhol- und Absetzstandorten kann generiert werden. Das Datenverarbeitungssystem kann die zweite Aktionsdatenstruktur einem Kinokartenreservierungsdienst und die dritte Aktionsdatenstruktur einem Autoreservierungsdienst bereitstellen.
Das Verfahren 300 kann zudem Vergleichen der ersten Aktionsdatenstruktur mit einer Eigenschaft des Eingabeaudiosignals (ACT 308) beinhalten. Die Netzwerksicherheitsvorrichtung kann die Eigenschaft des Eingabeaudiosignals mit der ersten Aktionsdatenstruktur vergleichen, um die Authentizität des Eingabeaudiosignals zu bestimmen. Bestimmen der Authentizität des Eingabeaudiosignals kann Bestimmen beinhalten, ob die Person, die das Eingabeaudiosignal erzeugt hat, berechtigt ist, Eingabeaudiosignale zu generieren. Zu den Eigenschaften des Eingabeaudiosignals können ein Stimmabdruck, ein Schlüsselwort, eine Anzahl von erkannten Stimmen, eine Identifizierung einer Audioquelle (z. B. eine Identifizierung des Sensors oder Client-Computergeräts, von dem das Eingabeaudiosignal stammt), ein Standort einer Audioquelle oder der Standort eines anderen Client-Computergeräts (und der Abstand zwischen dem anderen Client-Computergerät und der Audioquelle) gehören. Beispielsweise kann während einer Einrichtungsphase ein autorisierter Stimmabdruck generiert werden, indem ein Benutzer Passagen spricht. Wenn diese Passagen gesprochen werden, kann die Netzwerksicherheitsvorrichtung einen Stimmabdruck generieren, der auf dem Frequenzinhalt, der Qualität, der Dauer, der Intensität, der Dynamik und der Tonhöhe des Signals basiert. Die Netzwerksicherheitsvorrichtung kann einen Alarmzustand generieren, wenn die Netzwerksicherheitsvorrichtung bestimmt, dass die Eigenschaften des Eingabeaudiosignals nicht mit der ersten Aktionsdatenstruktur oder anderen erwarteten Daten übereinstimmen. Wenn beispielsweise eine Aktionsdatenstruktur für „Ok, ich möchte heute Abend essen gehen und dann am Abend einen Film anschauen“ generiert wird, kann das Datenverarbeitungssystem eine Aktionsdatenstruktur für einen Autoreservierungsdienst generieren, die einen Abholort basierend auf dem Standort des Smartphones des Benutzers beinhaltet. Die Aktionsdatenstruktur kann den Standort beinhalten. Das Eingabeaudiosignal kann über ein interaktives Lautsprechersystem generiert werden. Der Standort des interaktiven Lautsprechersystems, der mit dem Eingabeaudiosignal an das Datenverarbeitungssystem übertragen wird. In diesem Beispiel, wenn der Standort des Smartphones des Benutzers nicht mit dem Standort des interaktiven Lautsprechersystems übereinstimmt (oder sich nicht innerhalb einer vordefinierten Entfernung des interaktiven Lautsprechersystems befindet), dann befindet sich der Benutzer nicht in der Nähe des interaktiven Lautsprechersystems und die Netzwerksicherheitsvorrichtung kann bestimmen, dass der Benutzer höchstwahrscheinlich das Eingabeaudiosignal nicht generiert hat. Die Netzwerksicherheitsvorrichtung kann einen Alarmzustand generieren. Die Distanz zwischen dem Client-Computergerät 150 und einem sekundären Client-Gerät (z. B. dem Smartphone des Endbenutzers) kann als gerade lineare Distanz zwischen den beiden Geräten, als Fahrdistanz zwischen den zwei Geräten, berechnet werden. Die Distanz kann auch basierend auf der Reisezeitdauer zwischen den Standorten der zwei Geräte berechnet werden. Die Distanz kann auf anderen Eigenschaften beruhen, die den Standort, wie z. B. IP-Adresse und WLAN-Netzwerkstandorte, angeben können.
Das Verfahren 300 kann Auswählen eines Inhaltselements (ACT 310) beinhalten. Das Inhaltselement kann basierend auf dem Auslöserschlüsselwort und dem Alarmzustand hergestellt, und über einen Echtzeit-Inhaltsauswahlprozess ausgewählt werden. Das Inhaltselement kann ausgewählt werden, um das Eingabeaudiosignal zu authentifizieren. Das Inhaltselement kann eine Benachrichtigung, ein Online-Dokument oder eine Nachricht sein, die auf einem Client-Computergerät, z. B. dem Smartphone eines Benutzers, angezeigt wird. Das Inhaltselement kann ein Audiosignal sein, das an das Client-Computergerät übertragen und über den Wandler an den Benutzer gesendet wird. Das Inhaltselement kann eine Sicherheitsfrage sein. Bei der Sicherheitsfrage kann es sich um eine vordefinierte Sicherheitsfrage, wie z. B. die Abfrage eines Kennworts, handeln. Die Sicherheitsfrage kann dynamisch generiert sein. Beispielsweise kann die Sicherheit eine Frage sein, die basierend auf dem Verlauf des Benutzers oder des Client-Computergeräts generiert wurde.
Das Verfahren 300 kann den Empfang von Datenpaketen mit auditiven Signalen beinhalten (ACT 312). Die Datenpakete können auditive Signale übertragen, die zwischen dem Client-Computergerät und der Konversations-API des Datenverarbeitungssystems übertragen werden. Die Konversations-API kann eine Kommunikationssitzung mit dem Datenverarbeitungssystem in Reaktion auf die Interaktion mit dem Inhaltselement aufbauen. Die auditiven Signale können die Reaktion des Benutzers auf das Inhaltselement beinhalten, das während der ACT 310 an das Client-Computergerät übertragen wurde. Beispielsweise kann das Inhaltselement veranlassen, dass das Client-Computergerät ein Audiosignal generiert, das fragt: „Wie lautet Ihr Autorisierungscode?“ Die auditiven Signale können die Reaktion des Endbenutzers auf das Inhaltselement beinhalten. Die Reaktion des Endbenutzers auf das Inhaltselement kann eine Eigenschaft des Antwort-Audiosignals sein.
Das Verfahren 300 kann auch Vergleichen einer Eigenschaft des Antwort-Audiosignals mit einer Eigenschaft des Eingabeaudiosignals (ACT 314) beinhalten. Das Antwort-Audiosignal kann eine Passphrase oder andere Eigenschaften beinhalten. Das Inhaltselement kann Anweisungen für das Client-Computergerät beinhalten, um eine oder mehrere spezifische Eigenschaften des Antwort-Audiosignals zu erfassen. Beispielsweise kann die Eigenschaft des Eingabeaudiosignals ein Standort des Client-Computergeräts sein. Die Eigenschaft des Antwort-Audiosignals kann sich von der Eigenschaft des Eingabeaudiosignals unterscheiden. Beispielsweise kann die Eigenschaft des Antwort-Audiosignals ein Stimmabdruck sein. Das Inhaltselement kann Anweisungen zum Erfassen der Stimmabdruckeigenschaft beinhalten. Die Anweisungen können die Erfassung des Antwort-Audiosignals bei einer höheren Abtastfrequenz beinhalten, sodass zusätzliche Frequenzinhalte für den Stimmabdruck analysiert werden können. Wenn das System keine Übereinstimmung zwischen den Eigenschaften des Antwort-Audiosignals und des Eingabeaudiosignals bestimmt, kann das System einen Alarmzustand einstellen. Wenn beispielsweise die Eigenschaften des Antwort-Audiosignals eine Passphrase beinhalten, die nicht mit einer Passphrase übereinstimmt, die mit dem Eingabeaudiosignal verknüpft ist, kann der Alarmzustand eingestellt werden.
Wenn die Eigenschaft des Antwort-Audiosignals mit der Eigenschaft des Eingabeaudiosignals übereinstimmt (stimmen z. B. die Passphrasen (oder Hashes davon) überein). Ein Passzustand kann eingestellt werden. Wenn ein Passzustand eingestellt ist, kann das System Anweisungen an einen dritten Teil übertragen, um die Kommunikationssitzung mit dem Client-Gerät fortzusetzen. Die Anweisungen zum Fortsetzen der Kommunikationssitzung können die Kommunikationssitzung für eine vorgegebene Zeitspanne authentifizieren, sodass die Kommunikationssitzung bis zum Ablauf der vorgegebenen Zeit nicht erneut authentifiziert werden muss.
Das Verfahren 300 kann zudem Übertragen einer Anweisung an ein Drittanbietergerät zum Deaktivieren der Kommunikationssitzung (ACT 316) beinhalten. Deaktivieren der Kommunikationssitzung kann verhindern, dass Nachrichten und Aktionsdatenstrukturen an das Dienstanbietergerät übertragen werden. Dadurch kann die Netzwerkverwendung verbessert werden, indem unerwünschter Netzwerkverkehr verringert wird. Deaktivieren der Kommunikationssitzung kann den Rechenaufwand reduzieren, da die Geräte des Dienstanbieters keine Anfragen verarbeiten, die schädlich sind oder fehlerhaft generiert wurden.
4 zeigt ein Blockdiagramm eines exemplarischen Computersystems 400. Das Computersystem oder Computergerät 400 kann das System 100 oder dessen Komponenten, wie z. B. das Datenverarbeitungssystem 105, beinhalten oder es kann verwendet werden, um diese zu implementieren. Das Computersystem 400 beinhaltet einen Bus 405 oder eine andere Kommunikationskomponente zur Übertragung von Informationen sowie einen Prozessor 410 oder eine Verarbeitungsschaltung, die mit dem Bus 405 gekoppelt sind und der Verarbeitung von Informationen dienen. Das Computersystem 400 kann außerdem einen oder mehrere Prozessoren 410 oder Verarbeitungsschaltungen beinhalten, die mit dem Bus gekoppelt sind und der Verarbeitung von Informationen dienen. Das Computersystem 400 beinhaltet ferner Hauptspeicher 415, wie z. B. Direktzugriffsspeicher (RAM) oder ein anderes dynamisches Speichergerät, das mit dem Bus 405 gekoppelt ist, um Daten zu speichern, sowie Anweisungen, die von dem Prozessor 410 ausgeführt werden sollen. Der Hauptspeicher 415 kann der Datenbehälter 145 sein bzw. diesen beinhalten. Der Hauptspeicher 415 kann bei Ausführung von Anweisungen durch den Prozessor 410 ferner zum Speichern von Positionsdaten, temporären Variablen oder anderen mittelfristigen Informationen verwendet werden. Das Computersystem 400 kann ferner einen Nur-Lese-Speicher (ROM) 420 oder ein anderes statisches Speichergerät beinhalten, das mit dem Bus 405 gekoppelt ist, um statische Informationen und Anweisungen für den Prozessor 410 zu speichern. Mit dem Bus 405 kann ein Speichergerät 425, wie z. B. ein Solid-State-Gerät, eine magnetische oder optische Platte, gekoppelt werden, um Informationen und Anweisungen dauerhaft zu speichern. Das Speichergerät 425 kann den Datenbehälter 145 beinhalten bzw. Teil davon sein.
Das Computersystem 400 kann über den Bus 405 mit einer Anzeige 435, wie z. B. einer Flüssigkristallanzeige (LCD) oder aktiven Matrixanzeige, gekoppelt sein, um einem Benutzer Informationen anzuzeigen. Mit dem Bus 405 kann ein Eingabegerät 430, wie z. B. eine Tastatur mit alphanumerischen und anderen Tasten, gekoppelt sein, damit sich ausgewählte Informationen und Befehle an den Prozessor 410 übermitteln lassen. Das Eingabegerät 430 kann eine Touchscreenanzeige 435 beinhalten. Das Eingabegerät 430 kann außerdem eine Cursorsteuerung, wie z. B. eine Maus, einen Trackball oder Pfeiltasten auf der Tastatur, beinhalten, sodass sich Richtungsdaten und ausgewählte Befehle an den Prozessor 410 übermitteln und die Bewegung des Cursors auf der Anzeige 435 steuern lassen. Die Anzeige 435 kann beispielsweise Bestandteil des Datenverarbeitungssystems 105, des Client-Computergeräts 150 oder anderer Komponenten von 1 sein.
Die hierin beschriebenen Prozesse, Systeme und Verfahren können durch das Computersystem 400 in Reaktion darauf implementiert werden, dass der Prozessor 410 einen in Hauptspeicher 415 enthaltenen Anweisungssatz ausführt. Diese Anweisungen können von einem anderen computerlesbaren Medium, wie z. B. Speichergerät 425, in den Hauptspeicher 415 gelesen werden. Die Ausführung des im Hauptspeicher 415 enthaltenen Anweisungssatzes veranlasst das Computersystem 400, die hierin beschriebenen und dargestellten Prozesse auszuführen. In einer Multi-Prozessor-Anordnung können ein oder mehrere Prozessoren dazu genutzt werden, die im Hauptspeicher 415 enthaltenen Befehle auszuführen. Festverdrahtete Schaltungen können anstelle von oder in Kombination mit Software-Anweisungen zusammen mit den hierin beschriebenen Systemen und Verfahren verwendet werden. Die hierin beschriebenen Systeme und Verfahren sind nicht auf eine spezifische Kombination aus Hardwareschaltungen und Software beschränkt.
Obgleich ein exemplarisches Computersystem in 4 beschrieben wurde, kann der Gegenstand, einschließlich der in dieser Spezifikation beschriebenen Vorgänge, in anderen Arten von digitalen elektronischen Schaltungen oder in Computersoftware, Firmware oder Hardware, darunter auch in den in dieser Spezifikation offenbarten Strukturen und deren strukturellen Entsprechungen oder in Kombinationen von einer oder mehrerer derselben, implementiert werden.
In Situationen, in denen die hierin erläuterten Systeme persönliche Informationen über Benutzer sammeln oder ggf. persönliche Informationen nutzen, kann den Benutzern die Möglichkeit eingeräumt werden, einzustellen, ob Programme oder Funktionen Benutzerinformationen (z. B. Informationen über das soziale Netzwerk eines Benutzers, soziale Aktionen oder Aktivitäten, Präferenzen eines Benutzers oder den Standort eines Benutzers) sammeln, bzw. einzustellen, ob oder inwiefern derselbe Inhalte von einem Inhaltsserver oder einem anderen Datenverarbeitungssystem empfangen kann, die für den Benutzer ggf. relevanter sind. Zusätzlich können gewisse Daten auf eine oder mehrere Weisen anonymisiert werden, bevor sie gespeichert oder verwendet werden, sodass personenbezogene Daten entfernt werden, wenn Parameter generiert werden. Eine Benutzeridentität kann beispielsweise anonymisiert werden, sodass keine personenbezogenen Informationen für den Benutzer bestimmt werden können, oder ein geografischer Standort des Benutzers verallgemeinert werden kann, wobei Standortinformationen (wie beispielsweise Stadt, Postleitzahl oder Bundesland) entnommen werden, sodass ein bestimmter Standort eines Benutzers nicht festgestellt werden kann. Somit kann der Benutzer Kontrolle darüber haben, wie Informationen über ihn oder sie gesammelt und von einem Inhaltsserver verwendet werden.
Der Gegenstand und die in dieser Spezifikation beschriebenen Vorgänge können in digitalen elektronischen Schaltkreisanordnungen oder in Computersoftware, Firmware oder Hardware, darunter auch in den in dieser Spezifikation offenbarten Strukturen und deren strukturellen Entsprechungen oder in Kombinationen von einer oder mehrerer derselben, implementiert werden. Der in dieser Beschreibung beschriebene Gegenstand kann als ein oder mehrere Computerprogramme implementiert werden, z. B. als eine oder mehrere Schaltungen von Computerprogrammanweisungen, die auf einem oder mehreren Computerspeichermedien kodiert sind, um von Datenverarbeitungsvorrichtungen ausgeführt zu werden bzw. den Betrieb derselben zu steuern. Alternativ oder ergänzend dazu können die Programmanweisungen in einem künstlich erzeugten sich ausbreitenden Signal, wie beispielsweise einem maschinell erzeugten elektrischen, optischen oder elektromagnetischen Signal, kodiert sein, das erzeugt wird, um Informationen zur Übertragung an eine geeignete Empfängervorrichtung zu kodieren, damit diese von einer Datenverarbeitungsvorrichtung ausgeführt werden. Ein Computerspeichermedium kann ein computerlesbares Speichergerät, ein computerlesbares Speichersubstrat, ein frei adressierbares oder serielles Zugriffsspeicher-Array oder -Gerät oder eine Kombination derselben sein bzw. darin enthalten sein. Obwohl ein Computerspeichermedium kein sich ausbreitendes Signal ist, kann ein Computerspeichermedium jedoch eine Quelle oder ein Ziel von Computerprogrammbefehlen sein, die in einem künstlich erzeugten sich ausbreiteten Signal kodiert sind. Das Computerspeichermedium kann zudem eine oder mehrere separate Komponenten oder Medien sein (z. B. mehrere CDs, Datenträger oder andere Speichergeräte bzw. darin enthalten sein). Die in dieser Spezifikation beschriebenen Vorgänge können als Vorgänge implementiert werden, die durch eine Datenverarbeitungsvorrichtung an Daten ausgeführt werden, die auf einem oder mehreren computerlesbaren Speichergerät(en) gespeichert oder von anderen Quellen empfangen werden.
Die Begriffe „Datenverarbeitungssystem“, „Computergerät“, „Komponente“ oder „Datenverarbeitungsvorrichtung“ umfassen verschiedene Geräte, Vorrichtungen und Maschinen zur Verarbeitung von Daten, einschließlich beispielsweise eines programmierbaren Prozessors, eines Computers, eines oder mehrerer Systeme auf einem Chip oder mehrerer derselben oder Kombinationen der vorstehenden. Die Vorrichtung kann eine Spezial-Logikschaltung, wie z. B. eine FPGA (feldprogrammierbare Universalschaltung) oder eine ASIC (anwendungsspezifische integrierte Schaltung), beinhalten. Das Gerät kann zusätzlich zur Hardware auch Code beinhalten, der eine Ausführungsumgebung für das entsprechende Computerprogramm, wie z. B. Code, erzeugt, der Prozessorfirmware, einen Protokollstapel, ein Datenbankverwaltungssystem, ein Betriebssystem, eine plattformübergreifende Laufzeitumgebung, einen virtuellen Computer oder eine Kombination derselben darstellt. Das Gerät und die Ausführungsumgebung können verschiedene Computermodell-Infrastrukturen, wie z. B. Webdienste, sowie verteilte Rechen- und räumlich verteilte Rechen-Infrastrukturen realisieren. Die Direktaktions-API 135, die Inhaltsauswahlkomponente 125, die Netzwerksicherheitsvorrichtung 123 oder die NLP-Komponente 110 und andere Datenverarbeitungssystem- 105 -Komponenten können beispielsweise eine oder mehrere Datenverarbeitungsvorrichtungen, Systeme, Computergeräte oder Prozessoren beinhalten oder teilen.
Ein Computerprogramm (auch als Programm, Software, Softwareanwendung, App, Softwaremodul, Script oder Code bezeichnet) kann in jeder beliebigen Form von Programmiersprache, darunter auch in kompilierten oder interpretierten Sprachen oder in deklarativen oder prozeduralen Sprachen geschrieben und in beliebiger Form, wie z. B. als allein lauffähiges Programm oder Modul, Komponente, Subroutine, Objekt oder als eine andere für den Einsatz in einer Computerumgebung geeignete Einheit, bereitgestellt werden. Ein Computerprogramm kann einer Datei in einem Dateisystem entsprechen. Ein Computerprogramm kann in einem Teil einer Datei gespeichert sein, die andere Programme oder Daten enthält (wie z. B. ein oder mehrere Scripts, die in einem Auszeichnungssprachen-Dokument gespeichert sind), in einer einzelnen dem betreffenden Programm gewidmeten Datei oder in mehreren koordinierten Dateien (wie beispielsweise Dateien, die ein oder mehrere Module, Teilprogramme oder Code-Abschnitte enthalten). Ein Computerprogramm kann auf einem Computer oder auf mehreren Computern bereitgestellt und ausgeführt werden, die sich an einem Standort oder an mehreren Standorten verteilt befinden und über ein Kommunikationsnetzwerk miteinander verbunden sind.
Die in dieser Spezifikation beschriebenen Prozesse und logischen Abläufe können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen (z. B. Komponenten des Datenverarbeitungssystems 105), um durch Verarbeiten von Eingabedaten und Erzeugen von Ausgaben Vorgänge durchzuführen. Die Prozesse und Logikabläufe können zudem durch eine Spezial-Logikschaltung, wie z. B. einen feldprogrammierbaren Universalschaltkreis (FPGA) oder eine anwendungsspezifische integrierte Schaltung (ASIC) ausgeführt und Vorrichtungen in Form derselben implementiert werden. Zu den zum Speichern von Computerprogrammanweisungen und Daten geeigneten Medien gehören sämtliche Arten von Festspeichern, Medien und Speichergeräten, einschließlich Halbleiterspeicherelementen, darunter auch EPROM, EEPROM und Flash-Speichergeräte; magnetische Festplatten, wie z. B. interne Festplatten oder Wechselplatten; magnetooptische Festplatten, und CD-ROM- und DVD-ROM-Laufwerke. Der Prozessor und der Speicher können durch eine Spezial-Logikschaltung ergänzt oder in dieselbe integriert werden.
Der hierin beschriebene Gegenstand kann in einem Computersystem implementiert werden, das eine Back-End-Komponente, wie z. B. einen Datenserver, oder eine Middleware-Komponente, wie z. B. einen Anwendungsserver oder eine Front-End-Komponente, wie z. B. einen Client-Computer mit einer grafischen Benutzeroberfläche oder eine Kombination einer oder mehrerer der besagten Back-End-, Middleware- oder Front-End-Komponenten oder einen Web-Browser beinhaltet, durch den ein Benutzer mit einer in dieser Spezifikation beschriebenen Implementierung des Gegenstandes interagieren kann. Die Komponenten des Systems können durch eine beliebige Form oder ein beliebiges Medium digitaler Datenkommunikation, wie z. B. ein Kommunikationsnetzwerk, miteinander verbunden sein. Beispiele für Kommunikationsnetzwerke beinhalten ein lokales Netzwerk („LAN“) und ein Großraumnetzwerk („WAN“), ein Inter-Netzwerk (z. B. das Internet) und Peer-to-Peer-Netzwerke (z. B. ad hoc Peer-to-Peer-Netzwerke).
Das Computersystem, wie z. B. System 100 oder System 400, kann Clients und Server beinhalten. Ein Client und ein Server befinden sich im Allgemeinen entfernt voneinander und interagieren typischerweise über ein Kommunikationsnetzwerk (z. B. das Netzwerk 165). Die Beziehung zwischen Client und Server entsteht aufgrund von Computerprogrammen, die auf den jeweiligen Computern ausgeführt werden und die eine Client-Server-Beziehung zueinander aufweisen. In einigen Implementierungen sendet ein Server Daten (z. B. ein Inhaltselement darstellende Datenpakete) an ein Client-Gerät (z. B. zu Zwecken des Anzeigens von Daten und Empfangens von Benutzereingaben von einem Benutzer, der mit dem Client-Gerät interagiert). In dem Client-Gerät generierte Daten (z. B. ein Ergebnis der Benutzerinteraktion) können von dem Client-Gerät an dem Server empfangen werden (z. B. empfangen durch das Datenverarbeitungssystem 105 von dem Computergerät 150 oder dem Inhaltsanbietercomputergerät 155 oder dem Dienstanbietercomputergerät 160).
Obgleich die Vorgänge in den Zeichnungen in einer bestimmten Reihenfolge dargestellt sind, ist es nicht erforderlich, dass diese Vorgänge in der dargestellten bestimmten Reihenfolge oder in fortlaufender Reihenfolge durchgeführt werden, auch ist nicht erforderlich, dass alle veranschaulichten Vorgänge durchgeführt werden. Hierin beschriebene Aktionen können in einer unterschiedlichen Reihenfolge durchgeführt werden.
Die Trennung verschiedener Systemkomponenten erfordert keine Trennung in sämtlichen Implementierungen, zudem können die beschriebenen Programmkomponenten in einem einzigen Hardware- oder Softwareprodukt enthalten sein. Die NLP-Komponente 110, die Inhaltsauswahlkomponente 125 oder die Netzwerksicherheitsvorrichtung 123 kann beispielsweise eine einzelne Komponente, eine App oder ein Programm oder ein Logikgerät mit einer oder mehreren Verarbeitungsschaltungen oder Teil von einem oder mehreren Servern des Datenverarbeitungssystems 105 sein.
Nachdem nunmehr einige veranschaulichende Implementierungen beschrieben wurden, ist es offensichtlich, dass das Vorstehende der Veranschaulichung und nicht als Einschränkung dient und lediglich auf exemplarische Art und Weise präsentiert wurde. Insbesondere können, obgleich viele der hierin präsentierten Beispiele spezifische Kombinationen von Verfahrensvorgängen oder Systemelementen beinhalten, diese Vorgänge und Elemente auf andere Weisen kombiniert werden, um dieselben Ziele zu erreichen. Vorgänge, Elemente und Merkmale, die im Zusammenhang mit einer Implementierung erläutert werden, sollen nicht von einer ähnlichen Rolle in anderen Implementierungen oder Ausführungsformen ausgeschlossen sein.
Die hier verwendete Ausdrucksweise und Terminologie dient dem Zweck der Beschreibung und sollte nicht als Einschränkung betrachtet werden. Die Verwendung der Wörter „einschließlich“, „umfassend“, „aufweisend“, „enthaltend“, „einbeziehend“, „gekennzeichnet durch“, „dadurch gekennzeichnet, dass“ und Variationen derselben, soll hier bedeuten, dass die danach aufgelisteten Gegenstände, Äquivalente derselben und zusätzliche Gegenstände sowie alternative Implementierungen, die ausschließlich aus den danach aufgelisteten Gegenständen bestehen, mit umfasst sind. In einer Implementierung bestehen die hierin beschriebenen Systeme und Verfahren aus einem, aus jeder Kombination von mehr als einem oder aus allen der hierin beschriebenen Elemente, Wirkungsweisen oder Komponenten.
Jegliche Bezugnahmen auf Implementierungen oder Elemente oder Wirkungsweisen der Systeme und Verfahren, auf die hierin in der Einzahl verwiesen wird, können auch Implementierungen einschließlich einer Vielzahl dieser Elemente umfassen, und jegliche Bezugnahmen auf eine Implementierung oder ein Element oder eine Wirkungsweise beliebiger Art, auf die hierin in der Mehrzahl verwiesen wird, kann auch Implementierungen einschließlich eines lediglich einzelnen Elements umfassen. Bezugnahmen auf die Singular- oder die Pluralform sind nicht gedacht, die vorliegend offenbarten Systeme und Verfahren, deren Komponenten, Wirkungsweisen oder Elemente auf einzelne oder mehrfache Konfigurationen einzuschränken. Bezugnahmen auf eine Wirkungsweise oder ein Element jeglicher Art, auf Basis von Informationen, Wirkungsweisen oder Elementen einer beliebigen Art können Implementierungen beinhalten, deren Wirkungsweise oder deren Element zumindest teilweise auf Informationen, Wirkungsweisen oder Elementen jeglicher Art basiert.
Jede der hierin offenbarten Implementierungen kann mit jeder beliebigen anderen Implementierung oder Ausführungsform kombiniert werden, wobei die Bezugnahmen auf „eine Implementierung“, „einige Implementierungen“, „die eine Implementierung“ oder dergleichen einander nicht zwangsläufig ausschließen, sondern darauf hinweisen sollen, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Charakteristik, die im Zusammenhang mit der Implementierung beschrieben wird, in mindestens einer Implementierung oder Ausführungsform enthalten sein kann. Derartige Begriffe in der hierin verwendeten Form beziehen sich nicht notwendigerweise auf dieselbe Implementierung. Jede Implementierung kann einschließlich oder ausschließlich und auf jede Weise, die mit den hierin offenbarten Aspekten und Implementierungen im Einklang steht, mit jeder anderen Implementierung kombiniert werden.
Verweise auf „oder“ können als einschließend ausgelegt werden, sodass alle Begriffe, die mithilfe von „oder“ beschrieben werden, einen beliebigen einzelnen, mehr als einen oder alle beschriebenen Begriffe angeben können. Eine Bezugnahme auf „mindestens eines von ‚A‘ und ‚B‘“ kann beispielsweise nur ‚A‘, nur ‚B‘ sowie sowohl ‚A‘ und ‚B‘ beinhalten. Diese Bezugnahmen, die in Verbindung mit „umfassend“ oder anderer offener Terminologie verwendet werden, können zusätzliche Elemente einbeziehen.
Wenn technische Merkmale in den Zeichnungen, der ausführlichen Beschreibung oder einem beliebigen Anspruch von Bezugszeichen gefolgt werden, wurden die Bezugszeichen eingebunden, um die Verständlichkeit der Zeichnungen, der ausführlichen Beschreibung oder Ansprüche zu erhöhen. Dementsprechend haben weder solche Bezugszeichen noch deren Abwesenheit eine einschränkende Wirkung auf den Umfang der Anspruchselemente.
Die hierin beschriebenen Systeme und Verfahren können außerdem durch andere Ausführungsformen realisiert werden, ohne von deren wesentlichen Eigenschaften abzuweichen. Die vorhergehenden Implementierungen werden eher als anschaulich denn als einschränkend für die hierin beschriebenen Systeme und Verfahren betrachtet. Der Geltungsbereich der hierin beschriebenen Systeme und Verfahren wird daher eher durch die beigefügten Ansprüche als durch die vorangehende Beschreibung angegeben, wobei Änderungen, welche innerhalb der Bedeutungen und des Bereichs der Äquivalenz der Ansprüche fallen, daher hierin eingeschlossen sind.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 15395729 [0001]

Claims

System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, umfassend: eine Prozessorkomponente für natürliche Sprache, die durch ein Datenverarbeitungssystem ausgeführt wird, um über eine Schnittstelle des Datenverarbeitungssystems Datenpakete zu empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Eingabeaudiosignal umfassen; die Prozessorkomponente für natürliche Sprache, um das Eingabeaudiosignal zu parsen, um eine Anfrage und ein Auslöserschlüsselwort entsprechend der Anfrage zu identifizieren; eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems, um basierend auf dem Auslöserschlüsselwort eine erste Aktionsdatenstruktur in Reaktion auf die Anfrage zu generieren; eine Netzwerksicherheitsvorrichtung zum Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals, um einen Alarmzustand zu erkennen; eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente zum Empfangen des Auslöserschlüsselworts, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands, und basierend auf dem Auslöserschlüsselwort und der Angabe, Auswählen eines Inhaltselements; die Netzwerksicherheitsvorrichtung zum: Empfangen von Datenpaketen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat; Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals, um einen zweiten Alarmzustand zu erkennen; und Übertragen einer Anweisung basierend auf dem zweiten Alarmzustand an das Drittanbietergerät, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren.
System nach Anspruch 1, mit der Netzwerksicherheitsvorrichtung zum: Bestimmen der ersten Eigenschaft des Eingabeaudiosignals; und Bestimmen der zweiten Eigenschaft der auditiven Signale, wobei die erste Eigenschaft und die zweite Eigenschaft mindestens eines von einem Stimmabdruck, einem Schlüsselwort, einer Anzahl von erkannten Stimmen, einer Identifikation des Client-Geräts und eines Standorts einer Quelle des Eingabeaudiosignals umfassen.
System nach Anspruch 1, wobei sich die erste Eigenschaft von der zweiten Eigenschaft unterscheidet.
System nach Anspruch 1, mit der Netzwerksicherheitsvorrichtung zum: Empfangen eines Standortes eines zweiten Client-Geräts; Bestimmen einer Distanz zwischen einem Standort des Client-Geräts und dem Standort des zweiten Client-Geräts; und Erkennen des Alarmzustands basierend auf der Distanz zwischen einem Standort des Client-Geräts und dem Standort des zweiten Client-Geräts.
System nach Anspruch 4, mit der Netzwerksicherheitsvorrichtung zum: Erkennen des Alarmzustands basierend auf der Distanz zwischen einem Standort des Client-Geräts und dem Standort des zweiten Client-Geräts, der sich über einem zuvor festgelegten Schwellenwert befindet.
System nach Anspruch 1, wobei das Inhaltselement Anweisungen zum Generieren eines auditiven Signals an dem Client-Gerät umfasst.
System nach Anspruch 6, wobei das auditive Signal eine Sicherheitsfrage umfasst.
System nach Anspruch 1, mit der Netzwerksicherheitsvorrichtung zum: Deaktivieren der ersten Aktionsdatenstruktur in Reaktion auf Erkennen des ersten Alarmzustands.
System nach Anspruch 1, mit der Inhaltsauswahlelement zum: Generieren von Anweisungen, um die zweite Eigenschaft des Antwort-Audiosignals in dem Inhaltselement zu erfassen.
System nach Anspruch 1, mit der Netzwerksicherheitsvorrichtung zum: Abschließen der Kommunikationssitzung, die mit dem Client-Gerät hergestellt wurde, in Reaktion auf die Interaktion mit dem Inhaltselement.
System nach Anspruch 1, mit der Netzwerksicherheitsvorrichtung zum Bestimmen eines Betrags an Rechenressourcen, die zum Abschließen der Anfrage erforderlich sind.
System nach Anspruch 11, mit der Netzwerksicherheitsvorrichtung zum Einstellen des Alarmzustands in Reaktion darauf, dass der Betrag an Rechenressourcen über einem zuvor festgelegten Schwellenwert liegt.
System nach Anspruch 1, mit der Prozessorkomponente für natürliche Sprache zum Parsen des Antwort-Audiosignals, um eine Passphrase zu identifizieren.
System nach Anspruch 13, mit der Netzwerksicherheitsvorrichtung zum Einstellen des zweiten Alarmzustands basierend auf der Passphrase, die nicht mit einer gespeicherten Passphrase übereinstimmt.
System nach Anspruch 13, wobei die Passphrase die zweite Eigenschaft ist.
System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, umfassend: eine Prozessorkomponente für natürliche Sprache, die durch ein Datenverarbeitungssystem ausgeführt wird, um über eine Schnittstelle des Datenverarbeitungssystems Datenpakete zu empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Eingabeaudiosignal umfassen; die Prozessorkomponente für natürliche Sprache, um das Eingabeaudiosignal zu parsen, um eine Anfrage und ein Auslöserschlüsselwort entsprechend der Anfrage zu identifizieren; eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems, um basierend auf dem Auslöserschlüsselwort eine erste Aktionsdatenstruktur in Reaktion auf die Anfrage zu generieren; eine Netzwerksicherheitsvorrichtung zum Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals, um einen Alarmzustand zu erkennen; eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente zum Empfangen des Auslöserschlüsselworts, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands, und basierend auf dem Auslöserschlüsselwort und der Angabe, Auswählen eines Inhaltselements; die Netzwerksicherheitsvorrichtung zum: Empfangen von Datenpaketen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat; Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals, um einen Passzustand zu erkennen; und Übertragen einer Anweisung basierend auf dem Passzustand an das Drittanbietergerät, um die mit dem Client-Gerät hergestellte Kommunikationssitzung fortzusetzen.
System nach Anspruch 16, mit der Netzwerksicherheitsvorrichtung zum: Bestimmen der ersten Eigenschaft des Eingabeaudiosignals; und Bestimmen der zweiten Eigenschaft der auditiven Signale, wobei die erste Eigenschaft und die zweite Eigenschaft mindestens eines von einem Stimmabdruck, einem Schlüsselwort, einer Anzahl von erkannten Stimmen, einer Identifikation des Client-Geräts und eines Standorts einer Quelle des Eingabeaudiosignals umfassen, und wobei die zweite Eigenschaft eine Sicherheitsfrage umfasst.