DE212017000294U1 - Authentifizierung von paketierten Audiosignalen - Google Patents
Authentifizierung von paketierten Audiosignalen Download PDFInfo
- Publication number
- DE212017000294U1 DE212017000294U1 DE212017000294.8U DE212017000294U DE212017000294U1 DE 212017000294 U1 DE212017000294 U1 DE 212017000294U1 DE 212017000294 U DE212017000294 U DE 212017000294U DE 212017000294 U1 DE212017000294 U1 DE 212017000294U1
- Authority
- DE
- Germany
- Prior art keywords
- audio signal
- data processing
- processing system
- input audio
- client device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 184
- 238000012545 processing Methods 0.000 claims abstract description 131
- 230000009471 action Effects 0.000 claims abstract description 112
- 238000004891 communication Methods 0.000 claims abstract description 64
- 230000004044 response Effects 0.000 claims abstract description 63
- 230000003993 interaction Effects 0.000 claims description 10
- 238000000034 method Methods 0.000 description 52
- 230000008569 process Effects 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000013515 script Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000013550 pizza Nutrition 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- BUHVIAUBTBOHAG-FOYDDCNASA-N (2r,3r,4s,5r)-2-[6-[[2-(3,5-dimethoxyphenyl)-2-(2-methylphenyl)ethyl]amino]purin-9-yl]-5-(hydroxymethyl)oxolane-3,4-diol Chemical compound COC1=CC(OC)=CC(C(CNC=2C=3N=CN(C=3N=CN=2)[C@H]2[C@@H]([C@H](O)[C@@H](CO)O2)O)C=2C(=CC=CC=2)C)=C1 BUHVIAUBTBOHAG-FOYDDCNASA-N 0.000 description 1
- IRLPACMLTUPBCL-KQYNXXCUSA-N 5'-adenylyl sulfate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](COP(O)(=O)OS(O)(=O)=O)[C@@H](O)[C@H]1O IRLPACMLTUPBCL-KQYNXXCUSA-N 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- RGNPBRKPHBKNKX-UHFFFAOYSA-N hexaflumuron Chemical compound C1=C(Cl)C(OC(F)(F)C(F)F)=C(Cl)C=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F RGNPBRKPHBKNKX-UHFFFAOYSA-N 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0861—Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/34—User authentication involving the use of external additional devices, e.g. dongles or smart cards
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/53—Network services using third party service providers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/025—Services making use of location information using location based information parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2111—Location-sensitive, e.g. geographical location, GPS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2115—Third party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/142—Managing session states for stateless protocols; Signalling session states; State transitions; Keeping-state mechanisms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/60—Context-dependent security
- H04W12/63—Location-dependent; Proximity-dependent
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, umfassend:
eine Prozessorkomponente für natürliche Sprache, die durch ein Datenverarbeitungssystem ausgeführt wird, um über eine Schnittstelle des Datenverarbeitungssystems Datenpakete zu empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Eingabeaudiosignal umfassen;
die Prozessorkomponente für natürliche Sprache, um das Eingabeaudiosignal zu parsen, um eine Anfrage und ein Auslöserschlüsselwort entsprechend der Anfrage zu identifizieren;
eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems, um basierend auf dem Auslöserschlüsselwort eine erste Aktionsdatenstruktur in Reaktion auf die Anfrage zu generieren;
eine Netzwerksicherheitsvorrichtung zum Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals, um einen Alarmzustand zu erkennen;
eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente zum Empfangen des Auslöserschlüsselworts, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands, und basierend auf dem Auslöserschlüsselwort und der Angabe, Auswählen eines Inhaltselements;
die Netzwerksicherheitsvorrichtung zum:
Empfangen von Datenpaketen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat;
Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals, um einen zweiten Alarmzustand zu erkennen; und
Übertragen einer Anweisung basierend auf dem zweiten Alarmzustand an das Drittanbietergerät, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren.
eine Prozessorkomponente für natürliche Sprache, die durch ein Datenverarbeitungssystem ausgeführt wird, um über eine Schnittstelle des Datenverarbeitungssystems Datenpakete zu empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Eingabeaudiosignal umfassen;
die Prozessorkomponente für natürliche Sprache, um das Eingabeaudiosignal zu parsen, um eine Anfrage und ein Auslöserschlüsselwort entsprechend der Anfrage zu identifizieren;
eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems, um basierend auf dem Auslöserschlüsselwort eine erste Aktionsdatenstruktur in Reaktion auf die Anfrage zu generieren;
eine Netzwerksicherheitsvorrichtung zum Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals, um einen Alarmzustand zu erkennen;
eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente zum Empfangen des Auslöserschlüsselworts, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands, und basierend auf dem Auslöserschlüsselwort und der Angabe, Auswählen eines Inhaltselements;
die Netzwerksicherheitsvorrichtung zum:
Empfangen von Datenpaketen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat;
Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals, um einen zweiten Alarmzustand zu erkennen; und
Übertragen einer Anweisung basierend auf dem zweiten Alarmzustand an das Drittanbietergerät, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren.
Description
- QUERVERWEIS AUF EINE VERWANDTE ANMELDUNG
- Die vorliegende Anmeldung beansprucht die Priorität der am 30. Dezember 2016 eingereichten
US-Patentanmeldung Nr. 15/395,729 - HINTERGRUND
- Überhöhte paketbasierte oder anderweitige überhöhte Netzwerkübertragungen von Netzwerkverkehrsdaten zwischen Computergeräten können ein Computergerät daran hindern, die Netzwerkverkehrsdaten richtig zu verarbeiten, einen Vorgang, der mit den Netzwerkverkehrsdaten verbunden ist, abzuschließen oder zeitgerecht auf die Netzwerkverkehrsdaten zu reagieren. Die überhöhten Netzwerkübertragungen von Netzwerkverkehrsdaten können zudem ein Datenrouting erschweren oder die Qualität der Antwort verschlechtern, wenn das reagierende Computergerät an oder über dessen Verarbeitungskapazität gelangt, was eine ineffiziente Bandbreitenverwendung zur Folge haben kann. Ein Teil der überhöhten Netzwerkübertragungen kann ggf. schädliche Netzwerkübertragungen beinhalten.
- KURZDARSTELLUNG
- Die vorliegende Offenbarung betrifft im Allgemeinen die Authentifizierung von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, um den Betrag überhöhter Netzwerkübertragungen zu reduzieren. Eine durch ein Datenverarbeitungssystem ausgeführte Prozessorkomponente für natürliche Sprache kann Datenpakete empfangen. Die Datenpakete können ein durch einen Sensor eines Client-Computergeräts erkanntes Eingabeaudiosignal beinhalten. Die Prozessorkomponente für natürliche Sprache kann das Eingabeaudiosignal parsen, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Eine Netzwerksicherheitsvorrichtung kann eine oder mehrere Eigenschaften des Eingabeaudiosignals analysieren. Basierend auf den Eigenschaften kann die Netzwerksicherheitsvorrichtung einen Alarmzustand einstellen. Die Netzwerksicherheitsvorrichtung kann einer Inhaltsauswahlkomponente des Datenverarbeitungssystems einen Hinweis auf den Alarmzustand geben. Die Inhaltsauswahlkomponente kann, basierend auf dem Alarmzustand, ein Inhaltselement über einen Echtzeit-Inhaltsauswahlprozess auswählen. Eine durch das Datenverarbeitungssystem ausgeführte Audiosignalgeneratorkomponente kann ein Ausgabesignal beinhalten, das das Inhaltselement umfasst. Eine Schnittstelle des Datenverarbeitungssystems kann Datenpakete übertragen, die das von der Audiosignalgeneratorkomponente generierte Ausgabesignal umfassen, um eine von dem Client-Computergerät ausgeführte Audiotreiberkomponente dazu zu veranlassen, einen Lautsprecher des Client-Computergeräts anzusteuern, um eine akustische Welle zu generieren, die dem Ausgabesignal entspricht. Das Datenverarbeitungssystem kann ein Antwort-Audiosignal empfangen. Das Antwort-Audiosignal wird in Reaktion auf das von dem Client-Computergerät generierte Ausgabesignal empfangen. Das Antwort-Audiosignal kann Eigenschaften beinhalten, die von der Netzwerksicherheitsvorrichtung analysiert werden. Basierend auf den Eigenschaften des Antwort-Audiosignals kann die Netzwerksicherheitsvorrichtung eine Kommunikationssitzung zwischen einem Dienstanbieter und einem Client-Computergerät beenden oder aussetzen.
- Gemäß einem Aspekt der Offenbarung kann ein System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung eine Prozessorkomponente für natürliche Sprache beinhalten, die durch ein Datenverarbeitungssystem ausgeführt wird. Die Prozessorkomponente für natürliche Sprache kann über eine Schnittstelle des Datenverarbeitungssystems Datenpakete empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Audioeingabesignal beinhalten. Die Prozessorkomponente für natürliche Sprache kann das Eingabeaudiosignal parsen, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Das System kann eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems beinhalten, das basierend auf dem Auslöserschlüsselwort in Reaktion auf die Anfrage eine Aktionsdatenstruktur generieren kann. Das System kann außerdem eine Netzwerksicherheitsvorrichtung beinhalten, die die erste Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals vergleichen kann, um einen Alarmzustand zu erkennen. Das System kann eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente beinhalten. Das Inhaltsauswahlelement kann das Auslöserschlüsselwort, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands empfangen, und basierend auf dem Auslöserschlüsselwort und der Angabe ein Inhaltselement auswählen. Die Netzwerksicherheitsvorrichtung kann Datenpakete empfangen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät herstellte. Die Netzwerksicherheitsvorrichtung kann eine zweite Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals vergleichen, um einen zweiten Alarmzustand zu erkennen. Die Netzwerksicherheitsvorrichtung kann basierend auf dem zweiten Alarmzustand eine Anweisung an das Drittanbietergerät übertragen, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren.
- Gemäß einem anderen Aspekt der Offenbarung kann ein Verfahren zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung Empfangen von Datenpaketen mit einem durch einen Sensor eines Client-Geräts erkannten Eingabeaudiosignal durch eine Prozessorkomponente für natürliche Sprache beinhalten, die durch ein Datenverarbeitungssystem ausgeführt wird. Das Verfahren kann zudem Parsen des Eingabeaudiosignals durch die Prozessorkomponente für natürliche Sprache beinhalten, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Das Verfahren kann eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems beinhalten, das basierend auf dem Auslöserschlüsselwort in Reaktion auf die Anfrage eine erste Aktionsdatenstruktur generieren kann. Das Verfahren kann zudem Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals beinhalten, um einen Alarmzustand zu erkennen. Das Verfahren kann Auswählen eines Inhaltselements basierend auf dem Auslöserschlüsselwort und dem Alarmzustand durch eine Inhaltsauswahlkomponente beinhalten, die durch das Datenverarbeitungssystem ausgeführt wird. Das Verfahren kann Empfangen von Datenpaketen beinhalten, die ein Antwort-Audiosignal beinhalten, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat. Das Verfahren kann Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals beinhalten, um einen zweiten Alarmzustand zu erkennen. Das Verfahren kann Übertragen einer Anweisung an das Drittanbietergerät durch die Netzwerksicherheitsvorrichtung beinhalten, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren, in Reaktion auf die Interaktion mit dem Inhaltselement.
- Gemäß einem Aspekt der Offenbarung kann ein System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung eine Prozessorkomponente für natürliche Sprache beinhalten, die durch ein Datenverarbeitungssystem ausgeführt wird. Die Prozessorkomponente für natürliche Sprache kann über eine Schnittstelle des Datenverarbeitungssystems Datenpakete empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Audioeingabesignal beinhalten. Die Prozessorkomponente für natürliche Sprache kann das Eingabeaudiosignal parsen, um eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage zu identifizieren. Das System kann eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems beinhalten, das basierend auf dem Auslöserschlüsselwort in Reaktion auf die Anfrage eine Aktionsdatenstruktur generieren kann. Das System kann auch eine Netzwerksicherheitsvorrichtung beinhalten, die die erste Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals vergleichen kann, um einen Alarmzustand zu erkennen. Das System kann eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente beinhalten. Das Inhaltsauswahlelement kann das Auslöserschlüsselwort, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands empfangen, und basierend auf dem Auslöserschlüsselwort und der Angabe ein Inhaltselement auswählen. Die Netzwerksicherheitsvorrichtung kann Datenpakete empfangen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät herstellte. Die Netzwerksicherheitsvorrichtung kann eine zweite Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals vergleichen, um einen zweiten Pass-Zustand zu erkennen. Die Netzwerksicherheitsvorrichtung kann basierend auf dem zweiten Alarmzustand eine Anweisung an ein Drittanbietergerät übertragen, um die mit dem Client-Gerät hergestellte Kommunikationssitzung fortzusetzen.
- Diese und andere Aspekte und Implementierungen werden nachfolgend näher erläutert. Die vorstehenden Informationen und die folgende ausführliche Beschreibung beinhalten veranschaulichende Beispiele verschiedener Aspekte und Implementierungen und stellen einen Überblick oder einen Rahmen für das Verständnis des Wesens und Charakters der beanspruchten Aspekte und Implementierungen bereit. Die Zeichnungen bieten eine Veranschaulichung und ein weiteres Verständnis der verschiedenen Aspekte und Implementierungen und sind in diese Spezifikation einbezogen und stellen einen Teil derselben dar.
- Figurenliste
- Die begleitenden Zeichnungen sollen nicht maßstabsgetreu sein. Gleiche Bezugszeichen und Bezeichnungen in den verschiedenen Zeichnungen verweisen auf ähnliche Elemente. Aus Gründen der Übersichtlichkeit ist möglicherweise nicht jede Komponente in jeder Zeichnung beschriftet. In den Zeichnungen:
-
1 stellt ein exemplarisches System zum Ausführen von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung dar; -
2 veranschaulicht ein Ablaufdiagramm, das einen exemplarischen Betrieb eines Systems zum Ausführen von Authentifizierung von paketierten Audiosignalen veranschaulicht; -
3 veranschaulicht ein exemplarisches Verfahren zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung unter Verwendung des in1 veranschaulichten Systems; und -
4 zeigt ein Blockdiagramm, das eine allgemeine Architektur für ein Computersystem veranschaulicht, das zum Implementieren von Elementen der hierin beschriebenen und veranschaulichten Systeme und Verfahren eingesetzt werden kann. - AUSFÜHRLICHE BESCHREIBUNG
- Nachfolgend finden sich ausführlichere Beschreibungen verschiedener Konzepte, die sich auf Verfahren, Vorrichtungen und Systeme und deren Implementierungen beziehen. Die verschiedenen Konzepte, die vorstehend vorgestellt wurden und nachstehend ausführlicher erläutert werden, können auf eine beliebige von zahlreichen Weisen implementiert werden.
- Die vorliegende Offenbarung betrifft im Allgemeinen ein Datenverarbeitungssystem zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung. Das Datenverarbeitungssystem kann die Effizienz und Effektivität der Übertragung von auditiven Datenpaketen über ein oder mehrere Computernetzwerke verbessern, indem es beispielsweise schädliche Übertragungen vor deren Übertragung über das Netzwerk deaktiviert. Die vorliegende Lösung kann auch die Rechenleistung verbessern, indem sie entfernte Computerprozesse deaktiviert, die möglicherweise durch die schädlichen Audiosignalübertragungen beeinträchtigt oder verursacht werden. Durch Deaktivieren der Übertragung von schädlichen Audiosignalen kann das System die Bandbreitenverwendung reduzieren, indem es die Datenpakete, die das schädliche Audiosignal transportieren, nicht über Netzwerke überträgt. Verarbeiten des natürlich gesprochenen Audiosignals kann eine rechenintensive Aufgabe sein. Durch Erkennen möglicherweise schädlicher Audiosignale kann das System Rechenaufwand reduzieren, indem es das System in die Lage versetzt, die Verarbeitung möglicherweise schädlicher Audiosignale zu überspringen oder vorübergehend zu überspringen. Das System kann Rechenaufwand reduzieren, indem es Kommunikationssitzungen deaktiviert, wenn die schädliche Aktivität erkannt wird.
- Die hierin beschriebenen Systeme und Verfahren können ein Datenverarbeitungssystem beinhalten, das eine Audioeingabeabfrage empfängt, was auch als ein Audioeingabesignal bezeichnet werden kann. Von der Audioeingabeaudioabfrage kann das Datenverarbeitungssystem eine Anfrage und ein Auslöserschlüsselwort gemäß der Anfrage identifizieren. Das System kann Aktionsdatenstrukturen basierend auf der Audioeingabeabfrage generieren. Das System kann zudem Merkmale der Audioeingabeabfrage messen. Das System kann bestimmen, ob die Merkmale der Audioeingabeabfrage mit den vorhergesagten oder erwarteten Eigenschaften der Audioeingabeabfrage übereinstimmen. Wenn die Merkmale nicht mit den erwarteten Eigenschaften übereinstimmen, kann das System ein Inhaltselement auswählen, das an die Quelle der Audioeingabeabfrage zurückübertragen wird. Eine Kommunikationssitzung kann mit der Quelle gestartet werden. Das Inhaltselement kann ein Ausgabesignal beinhalten, das über einen der Quelle zugeordneten Lautsprecher wiedergegeben werden kann. Das System kann ein Antwort-Audiosignal auf das Inhaltselement empfangen. Das Antwort-Audiosignal kann zudem Merkmale beinhalten, die von dem System mit den erwarteten Eigenschaften verglichen werden. Wenn die Eigenschaften des Antwort-Audiosignals nicht mit den erwarteten Eigenschaften übereinstimmen, kann das System die Kommunikationssitzungen mit der Quelle deaktivieren und verhindern, dass die Quelle Kommunikationssitzungen mit Drittanbietern oder Inhaltsanbietern initiiert, wodurch Netzwerkbandbreite gespart wird, die Prozessorauslastung reduziert und Strom spart.
- Die vorliegende Lösung kann die Übertragung von unsicheren audiobasierten Benutzerinteraktionen verhindern, indem sie die Interaktion authentifiziert. Durch Sichern audiobasierter Benutzerinteraktionen kann verhindert werden, dass schädliche Prozesse unter dem Benutzerkonto (oder dem eines anderen Benutzers) ausgeführt werden. Verhindern der Ausführung schädlicher Prozesse kann zudem die Netzwerkbandbreitensowie die Prozessorauslastung oder -last reduzieren. Die vorliegende Lösung kann Netzwerkbandbreitenauslastung reduzieren, indem sie die Übertragung nicht autorisierter audiobasierter Benutzerinteraktionen unterbindet.
-
1 stellt ein exemplarisches System100 zum Ausführen von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung dar. Das System100 kann mindestens ein Datenverarbeitungssystem105 beinhalten. Das Datenverarbeitungssystem105 kann mindestens einen Server beinhalten, der mindestens einen Prozessor aufweist. Das Datenverarbeitungssystem105 kann z. B. eine Vielzahl von Servern beinhalten, die sich in mindestens einem Rechenzentrum oder in einer Serverfarm befinden. Das Datenverarbeitungssystem105 kann aus einem Audioeingabesignal eine Anfrage und ein mit der Anfrage verknüpftes Auslöserschlüsselwort bestimmen. Basierend auf der Anfrage und dem Auslöserschlüsselwort kann das Datenverarbeitungssystem105 einen Thread bestimmen oder auswählen, der eine Vielzahl von sequenzabhängigen Vorgängen beinhaltet, und Inhaltselemente (und andere Aktionen wie hierin beschrieben einleiten) in einer Reihenfolge, die nicht der Reihenfolge von abhängigen Vorgängen entspricht, z. B. als Teil eines sprachaktivierten Kommunikations- oder Planungssystems, auswählen. Die Inhaltselemente können eine oder mehrere Audiodateien beinhalten, die beim Wiedergeben eine Audioausgabe oder akustische Welle bereitstellen. Die Inhaltselemente können neben Audioinhalten auch andere Inhalte (z. B. Text-, Video- oder Bildinhalte) beinhalten. - Das Datenverarbeitungssystem
105 kann mehrere, logisch gruppierte Server beinhalten und verteilte Rechenprozesse unterstützen. Die logische Gruppe von Servern kann als ein Rechenzentrum, eine Serverfarm oder eine Computerfarm bezeichnet werden. Die Server können geografisch verteilt sein. Ein Rechenzentrum oder eine Computerfarm kann als eine einzelne Entität verwaltet werden oder die Computerfarm kann eine Vielzahl von Computerfarmen beinhalten. Die Server in einer Computerfarm können heterogen sein - ein oder mehrere der Server oder Computer können gemäß einem oder mehreren Arten von Betriebssystemplattformen betrieben werden. Das Datenverarbeitungssystem105 kann Server in einem Rechenzentrum beinhalten, die in einem oder mehreren High-Density-Racksystemen gespeichert sind, sowie zugehörige Speichersysteme, die sich beispielsweise in einem Unternehmensrechenzentrum befinden. Das Datenverarbeitungssystem105 mit konsolidierten Servern kann auf diese Weise Systemverwaltung, Datensicherheit, physische Sicherheit des Systems sowie Systemleistung verbessern, indem in lokalisierten Hochleistungsnetzwerken nach Servern und Hochleistungsspeichersystemen gesucht wird. Die Zentralisierung aller oder einiger der Datenverarbeitungssystem-105 -Komponenten, einschließlich Server und Speichersysteme, sowie das Koppeln derselben mit verbesserten System-Management-Tools ermöglicht eine effizientere Verwendung von Server-Ressourcen, wodurch Strom- und Verarbeitungsanforderungen gespart und die Bandbreitenauslastung reduziert werden. - Das Datenverarbeitungssystem
105 kann mindestens eine Prozessorkomponente110 für natürliche Sprache (NLP), mindestens eine Schnittstelle115 , mindestens eine Netzwerksicherheitsvorrichtung123 , mindestens eine Inhaltsauswahlelementkomponente125 , mindestens eine Audiosignalgeneratorkomponente130 , mindestens eine Direktaktions-Anwendungsprogrammierschnittstelle (API)135 , mindestens eine Sitzungshandhabungselementkomponente140 , mindestens eine Kommunikations-API136 und mindestens einen Datenbehälter145 beinhalten. Die NLP-Komponente110 , Schnittstelle115 , Netzwerksicherheitsvorrichtung123 , Inhaltsauswahlelementkomponente125 , Audiosignalgeneratorkomponente130 , Direktaktions-API135 und Sitzungshandhabungselementkomponente140 können jeweils mindestens eine Verarbeitungseinheit, einen Server, virtuellen Server, eine Schaltung, eine Maschine, einen Agenten, eine Vorrichtung oder ein sonstiges Logikgerät, wie z. B. programmierbare Arrays beinhalten, die konfiguriert sind, mit dem Datenbehälter145 und mit sonstigen Computergeräten (z. B. dem Client-Computergerät150 , dem Inhaltsanbietercomputergerät155 oder dem Dienstanbietercomputergerät160 ) über das mindestens eine Computernetzwerk165 kommunizieren zu können. Das Netzwerk165 kann Computernetzwerke, wie z. B. das Internet, lokale Netzwerke, regionale Netzwerke und Großraumnetzwerke oder sonstige Bereichsnetzwerke, Intranets, Satellitennetzwerke oder sonstige Computernetzwerke, wie z. B. sprach- oder datenbezogene Mobilfunknetze und Kombinationen derselben, beinhalten. - Die Sitzungshandhabungselementkomponente
140 kann beispielsweise eine Kommunikationssitzung zwischen dem Datenverarbeitungssystem105 und dem Client-Computergerät150 herstellen. Die Sitzungshandhabungselementkomponente140 kann die Kommunikationssitzung basierend auf Empfangen eines Eingabeaudiosignals von dem Computergerät150 empfangen. Die Sitzungshandhabungselementkomponente140 kann die anfängliche Zeitdauer der Sitzungskommunikation basierend auf der Tageszeit, dem Standort des Client-Computergeräts150 , Kontexts des Eingabeaudiosignals oder eines Stimmabdrucks einstellen. Die Sitzungshandhabungselementkomponente140 kann die Kommunikationssitzung nach Ablauf der Sitzung beenden. Die Authentifizierung wird ggf. nur einmal pro Kommunikationssitzung benötigt. Beispielsweise kann das Datenverarbeitungssystem105 bestimmen, dass es eine vorherige erfolgreiche Authentifizierung während der Kommunikationssitzung gab, und keine zusätzliche Authentifizierung erfordern, bevor die Kommunikationssitzung abläuft. - Das Netzwerk
165 kann ein Anzeigenetzwerk, wie z. B. eine im Internet verfügbare Untergruppe von Informationsquellen, beinhalten oder bilden, die mit einem Inhaltsanordnungs- oder Suchmaschinenergebnissystem verknüpft sind, oder die auswählbar sind, sodass diese Drittanbieterinhaltselemente als Teil einer Inhaltselementeanordnungskampagne beinhalten. Das Netzwerk165 kann durch das Datenverarbeitungssystem105 verwendet werden, um auf Informationsressourcen wie Webseiten, Internetpräsenzen, Domänennamen oder URL-Adressen zuzugreifen, die durch das Client-Computergerät150 präsentiert, ausgegeben, wiedergegeben oder angezeigt werden können. Über das Netzwerk165 kann ein Benutzer des Client-Computergeräts150 beispielsweise auf Informationen oder Daten zugreifen, die durch das Inhaltsanbietercomputergerät155 oder das Dienstanbietercomputergerät160 bereitgestellt werden. - Das Netzwerk
165 kann beispielsweise ein Point-to-Point-Netzwerk, ein Broadcast-Netzwerk, ein Großraumnetzwerk, ein lokales Netzwerk, ein Telekommunikationsnetzwerk, ein Datenkommunikationsnetzwerk, ein Computernetzwerk, ein ATM-Netzwerk (Asynchroner Transfermodus), ein SONET-Netzwerk (Synchrones Optisches Netzwerk), ein SDH-Netzwerk (Synchrone Digitale Hierarchie), ein Drahtlosnetzwerk oder ein kabelgebundenes Netzwerk beinhalten und Kombinationen derselben sein. Das Netzwerk165 kann eine Drahtlosverbindung, wie z. B. einen Infrarotkanal oder ein Satellitenfrequenzband, beinhalten. Die Topologie des Netzwerks165 kann eine Bus-, Stern- oder Ringnetzwerktopologie beinhalten. Das Netzwerk165 kann Mobilfunknetze unter Verwendung von einem beliebigen Protokoll oder beliebigen Protokollen beinhalten, die zur Kommunikation mit Mobilgeräten geeignet sind, darunter Advanced Mobile Phone Protocol („AMPS“), Time Division Multiple Access („TDMA“), Code-Division Multiple Access („CDMA“), Global System for Mobile Communication („GSM“), General Packet Radio Services („GPRS“) und Universal Mobile Telecommunications System („UMTS“). Verschiedene Arten von Daten können über verschiedene Protokolle übertragen werden oder es können gleiche Arten von Daten über verschiedene Protokolle übertragen werden. - Das Client-Computergerät
150 , das Inhaltsanbietercomputergerät155 und das Dienstanbietercomputergerät160 können mindestens ein Logikgerät, wie z. B. ein Computergerät mit einem Prozessor, zur Kommunikation miteinander oder mit dem Datenverarbeitungssystem105 über das Netzwerk165 beinhalten. Das Client-Computergerät150 , das Inhaltsanbietercomputergerät155 und das Dienstanbietercomputergerät160 können jeweils mindestens einen Server, Prozessor oder Speicher oder eine Vielzahl von Rechenressourcen oder Servern, die sich in mindestens einem Rechenzentrum befinden, beinhalten. Das Client-Computergerät150 , das Inhaltsanbietercomputergerät155 und das Dienstanbietercomputergerät160 können jeweils mindestens ein Computergerät, wie z. B. einen Desktop-Computer, Laptop, Tablet, persönlichen digitalen Assistenten, Smartphone, tragbaren Computer, Thin Client-Computer, virtuellen Server oder ein anderes Computergerät, beinhalten. - Das Client-Computergerät
150 kann mindestens einen Sensor151 , mindestens einen Wandler152 , mindestens einen Audiotreiber153 und mindestens einen Lautsprecher154 beinhalten. Der Sensor151 kann ein Mikrofon oder einen Audioeingabesensor beinhalten. Der Sensor151 kann zudem mindestens einen von einem GPS-Sensor, Näherungssensor, Umgebungslichtsensor, Temperatursensor, Bewegungssensor, Beschleunigungsmesser oder Gyroskop beinhalten. Der Wandler152 kann das Audioeingabesignal in ein elektronisches Signal umwandeln. Der Audiotreiber153 kann ein Script oder Programm beinhalten, das von einem oder mehreren Prozessoren des Client-Computers150 ausgeführt wird, um den Sensor151 , den Wandler152 oder den Audiotreiber153 neben anderen Komponenten des Client-Computers150 zu steuern, um Audioeingaben zu verarbeiten oder Audioausgaben bereitzustellen. Der Lautsprecher154 kann das Audioausgabesignal übertragen. - Das Client-Computergerät
150 kann einem Endbenutzer zugeordnet sein, der Sprachabfragen als Audioeingabe in das Client-Computergerät150 (über den Sensor151 ) eingibt und eine Audioausgabe in Form einer computergenerierten Stimme empfängt, die von dem Datenverarbeitungssystem105 (oder dem Inhaltsanbietercomputergerät155 oder dem Dienstanbietercomputergerät160 ) für das Client-Computergerät150 bereitgestellt werden kann, die von dem Lautsprecher154 ausgegeben wird. Die computergenerierte Stimme kann Aufzeichnungen von einer realen Person oder einer computergenerierten Sprache beinhalten. - Das Inhaltsanbietercomputergerät
155 kann audiobasierte Inhaltselemente zum Anzeigen durch das Client-Computergerät150 als ein Audioausgabeinhaltselement bereitstellen. Das Inhaltselement kann ein Angebot für eine Ware oder eine Dienstleistung, wie z. B. eine sprachbasierte Meldung, wie folgt beinhalten: „Möchten Sie, dass ich für Sie ein Taxi bestelle?“ Beispielsweise kann das Inhaltsanbietercomputergerät155 einen Arbeitsspeicher beinhalten, um eine Reihe von Audioinhaltselementen zu speichern, die in Reaktion auf eine sprachbasierte Anfrage bereitgestellt werden. Das Inhaltsanbietercomputergerät155 kann auch audiobasierte Inhaltselemente (oder andere Inhaltselemente) an das Datenverarbeitungssystem105 bereitstellen, wo diese in dem Datenbehälter145 gespeichert werden können. Das Datenverarbeitungssystem105 kann die Audioinhaltselemente auswählen und die Audioinhaltselemente an das Client-Computergerät155 bereitstellen (oder das Inhaltsanbietercomputergerät150 anweisen, diese bereitzustellen). Der Inhalt kann Sicherheitsfragen beinhalten, die generiert werden, um den Benutzer des Client-Computergeräts150 zu authentifizieren. Die audiobasierten Inhaltselemente können ausschließlich Audio sein oder mit Text-, Bild- oder Videodaten kombiniert sein. - Das Dienstanbietercomputergerät
160 kann mindestens eine Dienstanbieterprozessorkomponente (NLP)161 für natürliche Sprache und mindestens eine Dienstanbieterschnittstelle162 beinhalten. Die Dienstanbieter-NLP-Komponente161 (oder andere Komponenten, wie z. B. eine Direktaktions-API des Dienstanbietercomputergeräts160 ), kann das Client-Computergerät150 (über das Datenverarbeitungssystem105 oder durch Umgehen des Datenverarbeitungssystems105 ) ansteuern, um eine hin und her gehende Echtzeitsprach- oder audiobasierte Konversation (z. B. eine Sitzung) zwischen dem Client-Computergerät150 und dem Dienstanbietercomputergerät160 zu erzeugen. Die Dienstanbieterschnittstelle162 kann beispielsweise Datennachrichten an die Direktaktions-API135 des Datenverarbeitungssystems105 empfangen oder an diese bereitstellen. Das Dienstanbietercomputergerät160 und das Inhaltsanbietercomputergerät155 können mit der gleichen Entität verknüpft sein. Beispielsweise kann das Dienstanbietercomputergerät155 Inhalte für einen Fahrgemeinschaftsdienst erzeugen, speichern oder bereitstellen, und das Dienstanbietercomputergerät160 kann eine Sitzung mit dem Client-Computergerät150 herstellen, um die Bereitstellung eines Taxis oder Autos des Fahrgemeinschaftsdienstes zu veranlassen, den Endbenutzer des Client-Computers150 abzuholen. Das Datenverarbeitungssystem105 kann über die Direktaktions-API135 , die NLP-Komponente110 oder andere Komponenten zudem die Sitzung mit dem Client-Computergerät herstellen, einschließlich oder unter Umgehung des Dienstanbietercomputergeräts160 , um z. B. die Bereitstellung eines Taxis oder Autos des Fahrgemeinschaftsdienstes zu veranlassen. - Das Dienstanbietergerät
160 , das Inhaltsanbietgerät155 und das Datenverarbeitungssystem105 können eine Konversation-API136 beinhalten. Der Endbenutzer kann über eine Sprachkonversation mit den Inhalten und dem Datenverarbeitungssystem105 über eine Kommunikationssitzung interagieren. Die Sprachkonversation kann zwischen dem Client-Gerät150 und der Konversations-API136 erfolgen. Die Konversations-API136 kann durch das Datenverarbeitungssystem105 , den Dienstanbieter160 oder Inhaltsanbieter155 ausgeführt werden. Das Datenverarbeitungssystem105 kann zusätzliche Informationen über die Interaktion des Endbenutzers mit dem Inhalt direkt erhalten, wenn das Datenverarbeitungssystem die Konversation-API136 ausführt. Wenn der Dienstanbieter160 oder der Inhaltsanbieter155 die Konversations-API136 ausführen, kann die Kommunikationssitzung entweder durch das Datenverarbeitungssystem105 geroutet werden, oder die jeweiligen Entitäten können Datenpakete der Kommunikationssitzung zu dem Datenverarbeitungssystem105 weiterleiten. Die hierin beschriebene Netzwerksicherheitsanwendung kann die Kommunikationssitzung beenden, wenn die Konversation-API136 durch das Datenverarbeitungssystem105 ausgeführt wird. Die Netzwerksicherheitsvorrichtung105 kann Anweisungen zu dem Dienstanbieter160 oder Inhaltsanbieter155 senden, um die Kommunikationssitzung zu beenden (oder anderweitig zu deaktivieren), wenn der Dienstanbieter160 oder Inhaltsanbieter155 die Konversations-API136 ausführt. - Der Datenbehälter
145 kann eine oder mehrere lokale oder verteilte Datenbanken beinhalten, und kann ein Datenbankverwaltungssystem beinhalten. Der Datenbehälter145 kann Computerdatenspeicher oder Arbeitsspeicher beinhalten, und kann einen oder mehrere Parameter146 , eine oder mehrere Richtlinien147 , Inhaltsdaten148 und Vorlagen149 mit anderen Daten speichern. Die Parameter146 , Richtlinien147 und Vorlagen149 können Informationen, wie z. B. Regeln über eine sprachbasierte Sitzung zwischen dem Client-Computergerät150 und dem Datenverarbeitungssystem105 (oder dem Dienstanbietercomputergerät160 ) beinhalten. Die Inhaltsdaten148 können Inhaltselemente für eine Audioausgabe oder verknüpfte Metadaten sowie eingegebene Audionachrichten, die Teil von einer oder mehreren Kommunikationssitzungen mit dem Client-Computergerät150 sein können, beinhalten. - Das Datenverarbeitungssystem
105 kann eine Anwendung, ein Script oder ein Programm beinhalten, das auf dem Client-Computergerät150 installiert ist, wie beispielsweise eine Anwendung, um eingegebene Audiosignale an die Schnittstelle115 des Datenverarbeitungssystems105 zu kommunizieren, und um Komponenten des Client-Computergeräts anzusteuern, um ausgegebene Audiosignale wiederzugeben. Das Datenverarbeitungssystem105 kann Datenpakete oder ein anderes Signal empfangen, das ein Audioeingabesignal beinhaltet oder identifiziert. Beispielsweise kann das Datenverarbeitungssystem105 die NLP-Komponente110 ausführen oder ausführen lassen, um das Audioeingabesignal zu empfangen. Das Audioeingabesignal kann durch den Sensor151 (z. B. ein Mikrofon) von dem Client-Computergerät erkannt werden. Die NLP-Komponente110 kann das Audioeingabesignal durch Vergleichen des Eingabesignals mit einer gespeicherten repräsentativen Reihe von Audiowellenformen und Auswählen der größten Übereinstimmungen in erkannten Text umwandeln. Die repräsentativen Wellenformen können über eine große Gruppe von Eingabesignalen generiert werden. Der Benutzer kann einige der Eingabesignale bereitstellen. Sobald das Audiosignal in erkannten Text umgewandelt wurde, kann die NLP-Komponente110 den Text mit Wörtern abgleichen, die z. B. über eine Lernphase mit Aktionen verknüpft sind, die das System200 vornehmen kann. Über den Wandler152 , den Audiotreiber153 oder andere Komponenten kann das Client-Computergerät150 das Audioeingabesignal dem Datenverarbeitungssystem105 (z. B. über das Netzwerk165 ) bereitstellen, wo es (z. B. durch die Schnittstelle115 ) empfangen werden kann, und der NLP-Komponente110 bereitgestellt, oder in dem Datenbehälter145 als Inhaltsdaten148 gespeichert werden kann. - Die NLP-Komponente
110 kann das Audioeingabesignal erhalten. Von dem Eingabeaudiosignal kann die NLP-Komponente110 mindestens eine Anfrage oder mindestens ein Auslöserschlüsselwort identifizieren, das der Anfrage entspricht. Die Anfrage kann Absicht oder Gegenstand des Eingabeaudiosignals anzeigen. Das Auslöserschlüsselwort kann eine Aktionsart anzeigen, die voraussichtlich vorzunehmen ist. Die NLP-Komponente110 kann beispielsweise das Eingabeaudiosignal parsen, um mindestens eine Anfrage zu identifizieren, am Abend aus essen und ins Kino zu gehen. Das Auslöserschlüsselwort kann mindestens ein Wort, eine Phrase, einen Wortstamm oder ein Teilwort oder eine Ableitung beinhalten, das bzw. die eine vorzunehmende Aktion anzeigen. Das Auslöserschlüsselwort „gehen“ oder „gehen zu“ von dem Eingabeaudiosignal kann beispielsweise eine Notwendigkeit für einen Transport anzeigen. Bei diesem Beispiel drückt das Eingabeaudiosignal (oder die identifizierte Anfrage) nicht direkt eine Absicht für einen Transport aus, das Auslöserschlüsselwort zeigt jedoch an, dass ein Transport eine Zusatzaktion für mindestens eine andere Aktion ist, die durch die Anfrage angezeigt wird. - Die Inhaltsauswahlelementkomponente
125 kann diese Informationen aus dem Datenbehälter145 erhalten, wo sie als Teil der Inhaltsdaten148 gespeichert werden können. Die Inhaltsauswahlelementkomponente125 kann den Datenbehälter145 abfragen, um das Inhaltselement, z. B. aus den Inhaltsdaten148 , auszuwählen oder anderweitig zu identifizieren. Die Inhaltsauswahlelementkomponente125 kann auch das Inhaltselement aus dem Inhaltsanbietercomputergerät155 auswählen. Beispielsweise kann das Inhaltsanbietercomputergerät155 , das auf eine Anfrage des Datenverarbeitungssystems105 reagiert, dem Datenverarbeitungssystem105 (oder einer Komponente desselben) ein Inhaltselement für eine spätere Ausgabe durch das Client-Computergerät150 bereitstellen. - Die Audiosignalgeneratorkomponente
130 kann ein Ausgabesignal generieren oder anderweitig erhalten, welches das Inhaltselement beinhaltet, das auf die dritte Aktion reagiert. Beispielsweise kann das Datenverarbeitungssystem105 die Audiosignalgeneratorkomponente ausführen, um ein dem Inhaltselement entsprechendes Ausgabesignal zu generieren oder zu erzeugen. Die Schnittstelle115 des Datenverarbeitungssystems105 kann ein oder mehrere Datenpakete mit dem Ausgabesignal über das Computernetzwerk165 an das Client-Computergerät150 bereitstellen oder übertragen. Beispielsweise kann das Datenverarbeitungssystem105 das Ausgabesignal aus dem Datenbehälter145 oder aus der Audiosignalgeneratorkomponente130 an das Client-Computergerät150 bereitstellen. Das Datenverarbeitungssystem105 kann zudem über Datenpaketübertragungen das Inhaltsanbietercomputergerät155 oder das Dienstanbietercomputergerät160 anweisen, das Ausgabesignal an das Client-Computergerät150 bereitzustellen. Das Ausgabesignal kann als ein oder mehrere Datenpakete (oder ein anderes Kommunikationsprotokoll) von dem Datenverarbeitungssystem105 (oder einem anderen Datenverarbeitungsgerät) erhalten, generiert, umgewandelt oder an das Client-Computergerät150 übertragen werden. - Die Inhaltsauswahlelementkomponente
125 kann das Inhaltselement für die Aktion des Eingabeaudiosignals im Rahmen eines Echtzeit-Inhaltsauswahlprozesses auswählen. Beispielsweise kann das Inhaltselement dem Client-Computergerät zum Übertragen als Audioausgabe in Klartext als direkte Reaktion auf das Eingabeaudiosignal bereitgestellt werden. Der Echtzeit-Inhaltsauswahlprozess zum Identifizieren des Inhaltselements und zum Bereitstellen des Inhaltselements an das Client-Computergerät150 kann innerhalb einer Minute oder weniger ab dem Zeitpunkt des Eingabeaudiosignals erfolgen und als Echtzeit betrachtet werden. - Das dem Inhaltselement entsprechende Ausgabesignal, z. B. ein Ausgabesignal, das von der Audiosignalgeneratorkomponente
130 erhalten oder generiert wird, die über die Schnittstelle115 und das Computernetzwerk165 an das Client-Computergerät150 übertragen wird, kann dazu führen, dass das Client-Computergerät150 den Audiotreiber153 ausführt, um den Lautsprecher154 anzusteuern und eine dem Ausgabesignal entsprechende akustische Welle zu generieren. Die akustische Welle kann Wörter beinhalten, die dem Inhalt entsprechen. - Die Direktaktions-API
135 des Datenverarbeitungssystems kann, basierend auf dem Auslöserschlüsselwort, Aktionsdatenstrukturen generieren. Die Direktaktions-API135 kann eine bestimmte Aktion ausführen, um die von dem Datenverarbeitungssystem105 bestimmte Absicht des Endbenutzers zu erfüllen. In Abhängigkeit von der Aktion, die in deren Eingaben spezifiziert ist, kann die Direktaktions-API135 einen Code oder ein Dialogscript ausführen, das die Parameter identifiziert, die benötigt werden, um eine Benutzeranfrage zu erfüllen. Die Aktionsdatenstruktur kann in Reaktion auf die Anfrage generiert werden. Die Aktionsdatenstruktur kann in den Nachrichten enthalten sein, die an das Dienstanbietercomputergerät160 übertragen oder von diesem empfangen werden. Basierend auf der Anfrage, die von der NLP-Komponente110 analysiert wird, kann die Direktaktions-API135 bestimmen, an welche von den Dienstanbietercomputergeräten160 die Nachricht gesendet werden soll. Wenn beispielsweise ein Eingabeaudiosignal „Bestellen Sie ein Taxi“ beinhaltet, kann die NLP-Komponente110 das Auslöserwort „Bestellen“ und die Anfrage eines Taxis identifizieren. Die Direktaktions-API135 kann die Anfrage in eine Aktionsdatenstruktur packen und als Nachricht an ein Dienstanbietercomputergerät160 eines Taxidienstes übertragen. Die Nachricht kann auch an die Inhaltsauswahlelementkomponente125 weitergeleitet werden. Die Aktionsdatenstruktur kann Informationen zum Abschließen der Anfrage beinhalten. In diesem Beispiel können die Informationen einen Abholort und einen Zielort beinhalten. Die Direktaktions-API135 kann eine Vorlage149 aus dem Datenbehälter145 abrufen, um zu bestimmen, welche Felder in die Aktionsdatenstruktur aufgenommen werden sollen. Die Direktaktions-API135 kann notwendige Parameter bestimmen und die Informationen in eine Aktionsdatenstruktur verpacken. Die Direktaktions-API135 kann Inhalte aus dem Datenbehälter145 abrufen, um Informationen für die Felder der Datenstruktur zu erhalten. Die Direktaktions-API135 kann die Felder der Vorlage mit diesen Informationen füllen, um die Datenstruktur zu generieren. Die Direktaktions-API135 kann die Felder auch mit Daten aus dem Eingabeaudiosignal füllen. Die Vorlagen149 können für Kategorien von Dienstanbietern standardisiert oder für bestimmte Dienstanbieter standardisiert werden. Beispielsweise können Fahrgemeinschaftsdienstanbieter die folgende standardisierte Vorlage149 verwenden, um die Datenstruktur zu erzeugen: {client_device_identifier; authentication_credentials; pick up location; destination location; no_passengers; service_level}. Die Aktionsdatenstruktur kann dann an eine andere Komponente, wie z. B. die Inhaltsauswahlkomponente125 , oder an das Dienstanbietercomputergerät160 gesendet werden, um ausgefüllt zu werden. - Die Direktaktions-API
135 kann mit dem Dienstanbietercomputergerät160 (das mit dem Inhaltselement in Verbindung gebracht werden kann, wie z. B. einem Fahrgemeinschaftsunternehmen) kommunizieren, um ein Taxi oder ein Fahrgemeinschaftsfahrzeug für den Standort des Kinos zu dem Zeitpunkt zu bestellen, an dem der Film endet. Das Datenverarbeitungssystem105 kann diese Standort- oder Zeitinformationen als Teil des Datenpakets (oder eines anderen Protokolls) erhalten, das auf Datennachrichtenkommunikation mit dem Client-Computergerät150 , dem Datenspeicher145 oder aus anderen Quellen, wie z. B. dem Dienstanbietercomputergerät160 oder dem Inhaltsanbietercomputergerät155 , basiert. Die Bestätigung dieses Auftrages (oder eine andere Umwandlung) kann als Audiokommunikation von dem Datenverarbeitungssystem105 zu dem Client-Computergerät150 in Form eines Ausgabesignals von dem Datenverarbeitungssystem105 erfolgen, das das Client-Computergerät150 ansteuert, um Audioausgaben, wie z. B. „großartig, Sie haben ein Auto, das um 23 Uhr außerhalb des Kinos auf Sie wartet“, wiederzugeben. Das Datenverarbeitungssystem105 kann über die Direktaktions-API135 mit dem Dienstanbietercomputergerät160 kommunizieren, um den Auftrag für das Auto zu bestätigen. - Das Datenverarbeitungssystem
105 kann die Antwort (z. B. „Ja bitte“) auf den Inhalt erhalten („Möchten Sie eine Heimfahrt vom Kino?“) und eine paketbasierte Datennachricht an die Dienstanbieter-NLP-Komponente161 (oder eine andere Komponente des Dienstanbietercomputergeräts) routen. Diese paketbasierte Datennachricht kann dazu führen, dass das Dienstanbietercomputergerät160 eine Umwandlung vornimmt, z. B. um eine Reservierung für die Abholung eines Autos außerhalb des Kinos vorzunehmen. Diese Umwandlung - oder bestätigte Bestellung - (oder jede andere Umwandlung einer anderen Aktion des Threads) kann vor Abschluss einer oder mehrerer Aktionen des Threads erfolgen, wie z. B. vor Abschluss des Films, sowie nach Abschluss einer oder mehrerer Aktionen des Threads, wie z. B. nach dem Abendessen. - Die Direktaktions-API
135 kann Inhaltsdaten148 (oder Parameter146 oder Richtlinien147 ) von dem Datenbehälter145 sowie Daten empfangen, die mit Zustimmung des Endbenutzers von dem Client-Computergerät150 empfangen werden, um Standort, Zeit, Benutzerkonten, logistische oder andere Informationen zu bestimmen, um ein Auto aus dem Fahrgemeinschaftsdienst zu reservieren. Die Inhaltsdaten148 (oder Parameter146 oder Richtlinien147 ) können in der Aktionsdatenstruktur enthalten sein. Wenn der in der Aktionsdatenstruktur enthaltene Inhalt Endbenutzerdaten beinhaltet, die für die Authentifizierung verwendet werden, können die Daten durch eine Hash-Funktion hindurchgeleitet werden, bevor sie in dem Datenbehälter145 gespeichert werden. Unter Verwendung der Direktaktions-API135 kann das Datenverarbeitungssystem105 auch mit dem Dienstanbietercomputergerät160 kommunizieren, um die Umwandlung abzuschließen, indem es in diesem Beispiel die Reservierung für die Abholung der Fahrgemeinschaft vornimmt. - Das Datenverarbeitungssystem
105 kann Aktionen, die mit Inhaltselementen verknüpft sind, abbrechen. Der Abbruch der Aktionen kann in Reaktion auf die Netzwerksicherheitsvorrichtung123 erfolgen, die einen Alarmzustand generiert. Die Netzwerksicherheitsvorrichtung123 kann einen Alarmzustand generieren, wenn die Netzwerksicherheitsvorrichtung123 vorhersagt, dass das Eingabeaudiosignal schädlich, oder nicht anderweitig durch einen autorisierten Endbenutzer des Client-Computergeräts150 bereitgestellt wird. - Das Datenverarbeitungssystem
105 kann eine Netzwerksicherheitsvorrichtung123 beinhalten, mit dieser eine Schnittstelle ausbilden oder ansonsten damit kommunizieren. Die Netzwerksicherheitsanwendung123 kann Signalübertragungen zwischen dem Client-Computergerät150 und dem Inhaltsanbietercomputergerät155 authentifizieren. Die Signalübertragungen können die Audioeingaben von dem Client-Computergerät150 und die Antwort-Audiosignale von dem Client-Computergerät150 sein. Die Antwort-Audiosignale können als Antwort auf Inhalte generiert werden, die das Datenverarbeitungssystem105 während einer oder mehrerer Kommunikationssitzungen an das Client-Computergerät150 überträgt. Die Netzwerksicherheitsvorrichtung123 kann die Signalübertragung authentifizieren, indem sie die Aktionsdatenstruktur mit einer oder mehreren Eigenschaften der Eingabeaudiosignale und Antwort-Audiosignale vergleicht. - Die Netzwerksicherheitsvorrichtung
123 kann Merkmale des Eingabeaudiosignals bestimmen. Die Merkmale des Audiosignals können Stimmabdruck, ein Schlüsselwort, eine Anzahl von erkannten Stimmen, eine Identifikation einer Audioquelle und einen Standort einer Audioquelle beinhalten. Beispielsweise kann die Netzwerksicherheitsvorrichtung123 die spektralen Komponenten des Eingabeaudiosignals messen, um einen Stimmabdruck der Stimme zu generieren, die für das Eingabeaudiosignal verwendet wird. Der in Reaktion auf das Eingangsaudiosignal erzeugte Stimmabdruck kann mit einem gespeicherten Stimmabdruck verglichen werden, der durch das Datenverarbeitungssystem105 gespeichert wird. Der gespeicherte Stimmabdruck kann ein authentifizierter Stimmabdruck sein - beispielsweise ein Stimmabdruck, der durch einen authentifizierten Benutzer des Client-Computergeräts150 während einer Einrichtungsphase des Systems generiert wird. - Die Netzwerksicherheitsvorrichtung
123 kann auch Nicht-Audioeigenschaften des Eingabeaudiosignals bestimmen. Das Client-Computergerät150 kann Nicht-Audioinformationen in das Eingabeaudiosignal einbinden. Die Nicht-Audioinformationen können ein Standort sein, wie er durch das Client-Computergerät150 bestimmt oder angegeben wird. Die Nicht-Audioinformationen können eine Client-Computergerät150 -Kennung beinhalten. Nicht-Audioeigenschaften oder -informationen können auch physische Authentifizierungsgeräte, wie z. B. Beantwortung der Sicherheitsfrage mit einem Einmal-Kennwort-Gerät oder einem Fingerabdrucklesegerät, beinhalten. - Die Netzwerksicherheitsvorrichtung
123 kann einen Alarmzustand einstellen, wenn die Eigenschaften des Eingabeaudiosignals der Aktionsdatenstruktur nicht entsprechen. Beispielsweise kann die Netzwerksicherheitsvorrichtung123 Nichtübereinstimmungen zwischen der Aktionsdatenstruktur und den Eigenschaften des Eingabeaudiosignals erkennen. In einem Beispiel kann das Eingabeaudiosignal einen Standort des Client-Computergeräts150 beinhalten. Die Aktionsdatenstruktur kann einen vorhergesagten Standort des Endbenutzers beinhalten, z. B. einen Standort, der auf dem allgemeinen Standort des Smartphones des Endbenutzers basiert. Wenn die Netzwerksicherheitsvorrichtung123 bestimmt, dass der Standort des Client-Computergeräts150 nicht innerhalb eines zuvor definierten Bereichs des in der Aktionsdatenstruktur enthaltenen Standortes liegt, kann die Netzwerksicherheitsvorrichtung123 einen Alarmzustand einstellen. In einem anderen Beispiel kann die Netzwerksicherheitsvorrichtung123 den Stimmabdruck des Eingabeaudiosignals mit einem Stimmabdruck des in dem Datenbehälter145 gespeicherten, und in der Aktionsdatenstruktur enthaltenen Endbenutzers vergleichen. Wenn die zwei Stimmabdrücke nicht übereinstimmen, kann die Netzwerksicherheitsvorrichtung123 einen Alarmzustand einstellen. - Die Netzwerksicherheitsvorrichtung
123 kann bestimmen, welche Eingabeaudiosignaleigenschaften die Authentifizierung basierend auf der Antwort auf die Anfrage in dem Eingabeaudiosignal basieren. Für Authentifizierungen mit den unterschiedlichen Eigenschaften kann es unterschiedliche Rechenanforderungen geben. Beispielsweise kann Vergleichen von Stimmabdrücken rechenmäßig intensiver als Vergleichen von zwei Standorten sein. Auswählen von Authentifizierungsverfahren, die rechenintensiv sind, können überhöht rechenintensiv sein, wenn sie ungeeignet sind. Die Netzwerksicherheitsvorrichtung123 kann die Effizienz des Datenverarbeitungssystems105 verbessern, indem sie die für die Authentifizierung verwendeten Eigenschaften anhand der Anfrage auswählt. Wenn beispielsweise das Sicherheitsrisiko des Eingabeaudiosignals gering ist, kann die Netzwerksicherheitsvorrichtung123 ein Authentifizierungsverfahren mit einer nicht rechenintensiven Eigenschaft auswählen. Die Netzwerksicherheitsvorrichtung123 kann die Eigenschaft anhand der Kosten auswählen, die für die Erledigung der Anfrage erforderlich sind. Beispielsweise kann eine Stimmabdruckeigenschaft verwendet werden, wenn das Eingabeaudiosignal „Bestellen Sie einen neuen Laptop-Computer“ entspricht, jedoch eine Standorteigenschaft auswählen, wenn das Eingabeaudiosignal „Bestellen Sie ein Taxi“ entspricht. Die Auswahl der Eigenschaft kann basierend auf der Zeit oder der Rechenintensität erfolgen, die erforderlich ist, um die Anfrage abzuschließen. Eigenschaften, die mehr Rechenressourcen verbrauchen, können verwendet werden, um Eingabeaudiosignale zu authentifizieren, die Anfragen generieren, die mehr Rechenressourcen erfordern. Beispielswiese kann das Eingabeaudiosignal „Ok, ich würde gerne zum Abendessen und ins Kino gehen“, mehrere Aktionen und Anfragen sowie mehrere Dienstanbieter160 beinhalten. Das Eingabeaudiosignal kann Anfragen generieren, um nach möglichen Filmen zu suchen, nach möglichen Restaurantverfügbarkeiten zu suchen, Restaurantreservierungen vorzunehmen und Kinokarten zu kaufen. Der Abschluss dieses Eingabeaudiosignals ist sowohl rechenintensiver als auch langsamer als der Abschluss des Eingabeaudiosignals „Ok, wie spät ist es?“ - Die Netzwerksicherheitsvorrichtung
123 kann auch einen Alarmzustand basierend auf der in dem Eingabeaudiosignal enthaltenen Anfrage einstellen. Die Netzwerksicherheitsvorrichtung123 kann automatisch einen Alarmzustand einstellen, wenn die Übertragung der Aktionsdatenstruktur an ein Dienstanbietercomputergerät160 zu einer finanziellen Belastung des Endbenutzers des Client-Computergeräts150 führen kann. Beispielsweise kann ein erstes Eingabeaudiosignal „Ok, bestellen Sie eine Pizza“ eine monetäre Belastung erzeugen, während ein zweites Eingabeaudiosignal „Ok, wie spät ist es“, dies nicht tut. In diesem Beispiel kann die Netzwerksicherheitsvorrichtung123 automatisch einen Alarmzustand einstellen, wenn sie eine Aktionsdatenstruktur empfängt, die dem ersten Eingabeaudiosignal entspricht, und keinen Alarmzustand einstellen, wenn sie eine Aktionsdatenstruktur empfängt, die dem zweiten Eingabeaudiosignal entspricht. - Die Netzwerksicherheitsvorrichtung
123 kann einen Alarmzustand einstellen, der auf der Bestimmung basiert, dass die Aktionsdatenstruktur für ein bestimmtes Dienstanbietergerät160 bestimmt ist. Beispielsweise kann der Endbenutzer des Client-Computergeräts150 Einschränkungen einstellen, mit welchen Dienstanbietern das Datenverarbeitungssystem105 im Namen des Endbenutzers ohne weitere Autorisierung interagieren darf. Wenn der Endbenutzer beispielsweise ein Kind hat, kann der Endbenutzer, um zu verhindern, dass das Kind Spielzeug über einen Dienstanbieter kauft, der Spielzeug verkauft, eine Einschränkung einstellen, dass Aktionsdatenstrukturen nicht ohne weitere Authentifizierung an den Spielzeugverkäufer übertragen werden können. Wenn die Netzwerksicherheitsvorrichtung123 eine Aktionsdatenstruktur empfängt, die für ein bestimmtes Dienstanbietergerät160 bestimmt ist, kann die Netzwerksicherheitsanwendung123 eine Richtlinie in dem Datenbehälter nachschlagen, um zu bestimmen, ob ein Alarmzustand automatisch eingestellt werden soll. - Die Netzwerksicherheitsvorrichtung
123 kann Hinweise auf den Alarmzustand an die Inhaltsauswahlkomponente125 senden. Die Inhaltsauswahlkomponente125 kann ein Inhaltselement auswählen, das an das Client-Computergerät150 übertragen werden soll. Das Inhaltselement kann eine auditive Anfrage für eine Passphrase oder zusätzliche Informationen zur Authentifizierung des Eingabeaudiosignals sein. Das Inhaltselement kann an das Client-Computergerät150 übertragen werden, wo der Audiotreiber153 das Inhaltselement über den Wandler152 in Schallwellen umwandelt. Der Endbenutzer des Client-Computergeräts150 kann auf das Inhaltselement reagieren. Die Reaktion des Endbenutzers kann von dem Sensor151 digitalisiert und an das Datenverarbeitungssystem105 übertragen werden. Die NLP-Komponente110 kann das Antwort-Audiosignal verarbeiten und die Antwort an die Netzwerksicherheitsvorrichtung123 bereitstellen. Die Netzwerksicherheitsvorrichtung123 kann eine Eigenschaft des Antwort-Audiosignals mit einem Merkmal des Eingabeaudiosignals oder der Aktionsdatenstruktur vergleichen. Beispielsweise kann das Inhaltselement eine Anfrage nach einer Passphrase sein. Die NLP-Komponente110 kann den Text des Antwort-Audiosignals erkennen und den Text an die Netzwerksicherheitsvorrichtung123 weiterleiten. Die Netzwerksicherheitsvorrichtung123 kann eine Hash-Funktion auf dem Text ausführen. Nachdem die authentifizierte Passphrase des Endbenutzers mit der gleichen Hash-Funktion gehasht wurde, kann sie in dem Datenbehälter145 gespeichert werden. Die Netzwerksicherheitsvorrichtung123 kann den gehashten Text mit der sicheren, gehashten Passphrase vergleichen. Wenn der gehashte Text und die gehashte Passphrase übereinstimmen, kann die Netzwerksicherheitsvorrichtung123 das Eingabeaudiosignal authentifizieren. Wenn der gehashte Text und die gehashte Passphase nicht übereinstimmen, kann die Netzwerksicherheitsvorrichtung123 einen zweiten Alarmzustand einstellen. - Die Netzwerksicherheitsvorrichtung
123 kann Kommunikationssitzungen beenden. Die Netzwerksicherheitsvorrichtung123 kann Anweisungen an ein Dienstanbietercomputergerät160 übertragen, um eine Kommunikationssitzung, die mit dem Client-Computergerät150 hergestellt wurde, zu deaktivieren, zu unterbrechen oder anderweitig zu beenden. Das Beenden der Kommunikationssitzung kann in Reaktion auf das Einstellen eines zweiten Alarmzustands durch die Netzwerksicherheitsvorrichtung123 erfolgen. Die Netzwerksicherheitsvorrichtung123 kann die Fähigkeit des Computergeräts, Kommunikationssitzungen über das Datenverarbeitungssystem105 mit einem Dienstanbietercomputergerät160 zu generieren, deaktivieren. Wenn beispielsweise die Netzwerksicherheitsvorrichtung123 einen zweiten Alarmzustand in Reaktion auf das Eingabeaudiosignal „Ok, bestellen Sie ein Taxi“ einstellt, kann die Netzwerksicherheitsvorrichtung123 die Möglichkeit von Kommunikationssitzungen, die zwischen dem Client-Computergerät150 und dem Taxidienstanbietergerät hergestellt wird, deaktivieren. Ein autorisierter Benutzer kann das Taxidienstanbietergerät zu einem späteren Zeitpunkt erneut autorisieren. -
2 veranschaulicht ein Ablaufdiagramm, das einen exemplarischen Betrieb eines Systems200 zum Ausführen von Authentifizierung von Audiosignalen veranschaulicht. Das System200 kann eine oder mehrere der oben beschriebenen Komponenten oder Elemente in Bezug auf System100 beinhalten. Das System200 kann z. B. ein Datenverarbeitungssystem105 beinhalten, das mit einem Client-Computergerät150 und einem Dienstanbietercomputergerät160 , z. B. über das Netzwerk165 kommuniziert. - Der Betrieb des Systems
200 kann damit beginnen, dass das Client-Computergerät150 ein Eingabeaudiosignal201 an das Datenverarbeitungssystem105 überträgt. Sobald das Datenverarbeitungssystem105 das Eingabeaudiosignal empfängt, kann die NLP-Komponente110 des Datenverarbeitungssystems105 das Eingabeaudiosignal in eine Anfrage und ein Auslöserschlüsselwort parsen, das der Anfrage entspricht. Über das Datenverarbeitungssystem105 kann eine Kommunikationssitzung zwischen dem Client-Computergerät150 und dem Dienstanbietercomputergerät160 hergestellt werden. - Die Direktaktions-API
135 kann basierend auf der Anfrage eine Aktionsdatenstruktur generieren. Beispielsweise kann das Eingabeaudiosignal „Ich möchte ins Kino fahren“ lauten. In diesem Beispiel kann die Direktaktions-API135 bestimmen, ob die Anfrage für einen Autodienst ist. Die Direktaktions-API135 kann den aktuellen Standort des Client-Computergeräts150 bestimmen, der das Eingabeaudiosignal generierte, und den Standort des nächstgelegenen Kinos bestimmen. Die Direktaktions-API135 kann eine Aktionsdatenstruktur generieren, die den Standort des Client-Computergeräts150 als Abholort für den Autodienst und den Standort des nächstgelegenen Kinos als Zielort des Autodienstes beinhaltet. Die Aktionsdatenstruktur kann auch eine oder mehrere Eigenschaften des Eingabeaudiosignals beinhalten. Das Datenverarbeitungssystem105 kann die Aktionsdatenstruktur an die Netzwerksicherheitsvorrichtung weiterleiten, um zu bestimmen, ob ein Alarmzustand eingestellt werden sollte. - Erkennt die Netzwerksicherheitsvorrichtung einen Alarmzustand, kann das Datenverarbeitungssystem
105 über die Inhaltsauswahlkomponente125 ein Inhaltselement auswählen. Das Datenverarbeitungssystem105 kann das Inhaltselement202 an das Client-Computergerät150 bereitstellen. Das Inhaltselement202 kann dem Client-Computergerät150 im Rahmen einer Kommunikationssitzung zwischen dem Datenverarbeitungssystem105 und dem Client-Computergerät150 bereitgestellt werden. Die Kommunikationssitzung kann den Ablauf und das Empfinden eines Echtzeitgesprächs von Mensch zu Mensch haben. Beispielsweise kann das Inhaltselement Audiosignale beinhalten, die auf dem Client-Computergerät150 wiedergegeben werden. Der Endbenutzer kann auf das Audiosignal reagieren, das durch den Sensor151 digitalisiert und an das Datenverarbeitungssystem105 übertragen werden kann. Das Inhaltselement kann eine Sicherheitsfrage, ein Inhaltselement oder eine andere Frage sein, die an das Client-Computergerät150 übertragen wird. Die Frage kann über den Wandler152 an den Endbenutzer gestellt werden, der das Eingabeaudiosignal generiert hat. In manchen Implementierungen kann die Sicherheitsfrage basierend auf der bisherigen Interaktion zwischen dem Client-Computergerät150 und dem Datenverarbeitungssystem105 erfolgen. Wenn beispielsweise der Benutzer vor dem Übertragen des Eingabeaudiosignals eine Pizza über das System200 bestellt hat, indem er das Eingabeaudiosignal von „Ok, bestellen Sie eine Pizza“ bereitgestellt hat, könnten die Sicherheitsfragen „Was haben Sie gestern Abend zum Abendessen bestellt“ beinhalten. Das Inhaltselement kann auch die Anfrage zum Bereitstellen eines Kennworts für das Datenverarbeitungssystem105 beinhalten. Das Inhaltselement kann eine Push-Benachrichtigung an ein zweites Computergerät150 beinhalten, das mit dem ersten Computergerät150 verknüpft ist. Beispielsweise kann eine Push-Benachrichtigung, die eine Bestätigung des Eingabeaudiosignals anfordert, an ein Smartphone gesendet werden, das mit dem Client-Computergerät150 verknüpft ist. Der Benutzer kann die Push-Benachrichtigung auswählen, um zu bestätigen, dass das Eingabeaudiosignal authentisch ist. - Während der Kommunikationssitzung zwischen dem Client-Computergerät
150 und dem Datenverarbeitungssystem105 kann der Benutzer auf das Inhaltselement antworten. Der Benutzer kann verbal auf das Inhaltselement antworten. Die Antwort kann durch den Sensor151 digitalisiert und als Antwort-Audiosignal203 , das von einer Vielzahl von Datenpaketen getragen wird, an das Datenverarbeitungssystem105 übertragen werden. Das auditive Signal kann auch Eigenschaften beinhalten, die von der Netzwerksicherheitsvorrichtung analysiert werden können. Wenn die Netzwerksicherheitsvorrichtung bestimmt, dass ein Alarmzustand basierend auf den Bedingungen des Antwort-Audiosignals fortbesteht, kann die Netzwerksicherheitsvorrichtung eine Nachricht204 an das Dienstanbietercomputergerät160 senden. Die Nachricht204 kann Anweisungen für das Dienstanbietercomputergerät160 beinhalten, um die Kommunikationssitzung mit dem Client-Computergerät150 zu deaktivieren. -
3 veranschaulicht ein exemplarisches Verfahren300 zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten datenpaket- (oder anderen protokoll-) basierten Computernetzwerkumgebung. Das Verfahren300 kann Empfangen von Datenpaketen beinhalten, die ein Eingabeaudiosignal (ACT302 ) beinhalten. Beispielsweise kann das Datenverarbeitungssystem die NLP-Komponente ausführen, starten oder aufrufen, um paket- oder andere protokollbasierte Übertragungen über das Netzwerk von dem Client-Computergerät zu empfangen. Die Datenpakete können ein von dem Sensor erkanntes Eingabeaudiosignal beinhalten oder diesem entsprechen, wie z. B. ein Endbenutzer, der in ein Smartphone spricht: „OK, ich möchte heute Abend essen gehen und dann am Abend einen Film anschauen.“ - Das Verfahren
300 kann das Identifizieren einer Anfrage und eines Auslöserschlüsselworts innerhalb des Eingabeaudiosignals (ACT304 ) beinhalten. Beispielsweise kann die NLP-Komponente das Eingabeaudiosignal analysieren, um Anfragen zu identifizieren (wie z. B. „Abendessen“ oder „Film“ in dem obigen Beispiel) sowie die Schlüsselwörter „gehen“ und „zu gehen“ oder „um zu gehen“, die der Anfrage entsprechen oder sich auf sie beziehen. - Das Verfahren
300 beinhaltet Generieren einer ersten Aktion basierend auf der Anfrage (ACT306 ). Die Direktaktions-API kann eine Datenstruktur generieren, die durch das Dienstanbietercomputergerät oder Inhaltsanbietercomputergerät übertragen und verarbeitet werden kann, um die Anfrage des Eingabeaudiosignals zu erfüllen. Wenn beispielsweise das obige Beispiel weitergeführt wird, kann die Direktaktions-API eine erste Aktionsdatenstruktur generieren, die an einen Restaurant-Reservierungsdienst übertragen wird. Die erste Aktionsdatenstruktur kann eine Suche nach einem Restaurant durchführen, das sich in der Nähe des aktuellen Standorts des Client-Computergeräts befindet und andere Spezifikationen erfüllt, die mit dem Benutzer des Client-Computergeräts verknüpft sind (z. B. Küchenarten, die von dem Benutzer des Client-Computergeräts bevorzugt werden). Die Direktaktions-API kann auch einen bevorzugten Zeitpunkt für die Reservierung bestimmen. Beispielsweise kann das Datenverarbeitungssystem bestimmen, dass das bei der Suche ausgewählte Restaurant15 Minuten entfernt ist und dass die aktuelle Uhrzeit18 :30 Uhr ist. Das Datenverarbeitungssystem kann die bevorzugte Reservierungszeit nach 18:45 Uhr einstellen. In diesem Beispiel kann die erste Aktionsdatenstruktur den Restaurantnamen und die bevorzugte Reservierungszeit beinhalten. Das Datenverarbeitungssystem kann die erste Aktionsdatenstruktur an das Dienstanbietercomputergerät oder das Inhaltsanbietercomputergerät übertragen. ACT306 kann Generieren von mehreren Aktionsdatenstrukturen beinhalten. Für das obige Eingabeaudiosignal kann eine zweite Aktionsdatenstruktur, die einen Filmtitel und Restaurantnamen beinhaltet, generiert werden, und eine dritte Aktionsdatenstruktur mit Abhol- und Absetzstandorten kann generiert werden. Das Datenverarbeitungssystem kann die zweite Aktionsdatenstruktur einem Kinokartenreservierungsdienst und die dritte Aktionsdatenstruktur einem Autoreservierungsdienst bereitstellen. - Das Verfahren
300 kann zudem Vergleichen der ersten Aktionsdatenstruktur mit einer Eigenschaft des Eingabeaudiosignals (ACT308 ) beinhalten. Die Netzwerksicherheitsvorrichtung kann die Eigenschaft des Eingabeaudiosignals mit der ersten Aktionsdatenstruktur vergleichen, um die Authentizität des Eingabeaudiosignals zu bestimmen. Bestimmen der Authentizität des Eingabeaudiosignals kann Bestimmen beinhalten, ob die Person, die das Eingabeaudiosignal erzeugt hat, berechtigt ist, Eingabeaudiosignale zu generieren. Zu den Eigenschaften des Eingabeaudiosignals können ein Stimmabdruck, ein Schlüsselwort, eine Anzahl von erkannten Stimmen, eine Identifizierung einer Audioquelle (z. B. eine Identifizierung des Sensors oder Client-Computergeräts, von dem das Eingabeaudiosignal stammt), ein Standort einer Audioquelle oder der Standort eines anderen Client-Computergeräts (und der Abstand zwischen dem anderen Client-Computergerät und der Audioquelle) gehören. Beispielsweise kann während einer Einrichtungsphase ein autorisierter Stimmabdruck generiert werden, indem ein Benutzer Passagen spricht. Wenn diese Passagen gesprochen werden, kann die Netzwerksicherheitsvorrichtung einen Stimmabdruck generieren, der auf dem Frequenzinhalt, der Qualität, der Dauer, der Intensität, der Dynamik und der Tonhöhe des Signals basiert. Die Netzwerksicherheitsvorrichtung kann einen Alarmzustand generieren, wenn die Netzwerksicherheitsvorrichtung bestimmt, dass die Eigenschaften des Eingabeaudiosignals nicht mit der ersten Aktionsdatenstruktur oder anderen erwarteten Daten übereinstimmen. Wenn beispielsweise eine Aktionsdatenstruktur für „Ok, ich möchte heute Abend essen gehen und dann am Abend einen Film anschauen“ generiert wird, kann das Datenverarbeitungssystem eine Aktionsdatenstruktur für einen Autoreservierungsdienst generieren, die einen Abholort basierend auf dem Standort des Smartphones des Benutzers beinhaltet. Die Aktionsdatenstruktur kann den Standort beinhalten. Das Eingabeaudiosignal kann über ein interaktives Lautsprechersystem generiert werden. Der Standort des interaktiven Lautsprechersystems, der mit dem Eingabeaudiosignal an das Datenverarbeitungssystem übertragen wird. In diesem Beispiel, wenn der Standort des Smartphones des Benutzers nicht mit dem Standort des interaktiven Lautsprechersystems übereinstimmt (oder sich nicht innerhalb einer vordefinierten Entfernung des interaktiven Lautsprechersystems befindet), dann befindet sich der Benutzer nicht in der Nähe des interaktiven Lautsprechersystems und die Netzwerksicherheitsvorrichtung kann bestimmen, dass der Benutzer höchstwahrscheinlich das Eingabeaudiosignal nicht generiert hat. Die Netzwerksicherheitsvorrichtung kann einen Alarmzustand generieren. Die Distanz zwischen dem Client-Computergerät150 und einem sekundären Client-Gerät (z. B. dem Smartphone des Endbenutzers) kann als gerade lineare Distanz zwischen den beiden Geräten, als Fahrdistanz zwischen den zwei Geräten, berechnet werden. Die Distanz kann auch basierend auf der Reisezeitdauer zwischen den Standorten der zwei Geräte berechnet werden. Die Distanz kann auf anderen Eigenschaften beruhen, die den Standort, wie z. B. IP-Adresse und WLAN-Netzwerkstandorte, angeben können. - Das Verfahren
300 kann Auswählen eines Inhaltselements (ACT310 ) beinhalten. Das Inhaltselement kann basierend auf dem Auslöserschlüsselwort und dem Alarmzustand hergestellt, und über einen Echtzeit-Inhaltsauswahlprozess ausgewählt werden. Das Inhaltselement kann ausgewählt werden, um das Eingabeaudiosignal zu authentifizieren. Das Inhaltselement kann eine Benachrichtigung, ein Online-Dokument oder eine Nachricht sein, die auf einem Client-Computergerät, z. B. dem Smartphone eines Benutzers, angezeigt wird. Das Inhaltselement kann ein Audiosignal sein, das an das Client-Computergerät übertragen und über den Wandler an den Benutzer gesendet wird. Das Inhaltselement kann eine Sicherheitsfrage sein. Bei der Sicherheitsfrage kann es sich um eine vordefinierte Sicherheitsfrage, wie z. B. die Abfrage eines Kennworts, handeln. Die Sicherheitsfrage kann dynamisch generiert sein. Beispielsweise kann die Sicherheit eine Frage sein, die basierend auf dem Verlauf des Benutzers oder des Client-Computergeräts generiert wurde. - Das Verfahren
300 kann den Empfang von Datenpaketen mit auditiven Signalen beinhalten (ACT312 ). Die Datenpakete können auditive Signale übertragen, die zwischen dem Client-Computergerät und der Konversations-API des Datenverarbeitungssystems übertragen werden. Die Konversations-API kann eine Kommunikationssitzung mit dem Datenverarbeitungssystem in Reaktion auf die Interaktion mit dem Inhaltselement aufbauen. Die auditiven Signale können die Reaktion des Benutzers auf das Inhaltselement beinhalten, das während der ACT310 an das Client-Computergerät übertragen wurde. Beispielsweise kann das Inhaltselement veranlassen, dass das Client-Computergerät ein Audiosignal generiert, das fragt: „Wie lautet Ihr Autorisierungscode?“ Die auditiven Signale können die Reaktion des Endbenutzers auf das Inhaltselement beinhalten. Die Reaktion des Endbenutzers auf das Inhaltselement kann eine Eigenschaft des Antwort-Audiosignals sein. - Das Verfahren
300 kann auch Vergleichen einer Eigenschaft des Antwort-Audiosignals mit einer Eigenschaft des Eingabeaudiosignals (ACT314 ) beinhalten. Das Antwort-Audiosignal kann eine Passphrase oder andere Eigenschaften beinhalten. Das Inhaltselement kann Anweisungen für das Client-Computergerät beinhalten, um eine oder mehrere spezifische Eigenschaften des Antwort-Audiosignals zu erfassen. Beispielsweise kann die Eigenschaft des Eingabeaudiosignals ein Standort des Client-Computergeräts sein. Die Eigenschaft des Antwort-Audiosignals kann sich von der Eigenschaft des Eingabeaudiosignals unterscheiden. Beispielsweise kann die Eigenschaft des Antwort-Audiosignals ein Stimmabdruck sein. Das Inhaltselement kann Anweisungen zum Erfassen der Stimmabdruckeigenschaft beinhalten. Die Anweisungen können die Erfassung des Antwort-Audiosignals bei einer höheren Abtastfrequenz beinhalten, sodass zusätzliche Frequenzinhalte für den Stimmabdruck analysiert werden können. Wenn das System keine Übereinstimmung zwischen den Eigenschaften des Antwort-Audiosignals und des Eingabeaudiosignals bestimmt, kann das System einen Alarmzustand einstellen. Wenn beispielsweise die Eigenschaften des Antwort-Audiosignals eine Passphrase beinhalten, die nicht mit einer Passphrase übereinstimmt, die mit dem Eingabeaudiosignal verknüpft ist, kann der Alarmzustand eingestellt werden. - Wenn die Eigenschaft des Antwort-Audiosignals mit der Eigenschaft des Eingabeaudiosignals übereinstimmt (stimmen z. B. die Passphrasen (oder Hashes davon) überein). Ein Passzustand kann eingestellt werden. Wenn ein Passzustand eingestellt ist, kann das System Anweisungen an einen dritten Teil übertragen, um die Kommunikationssitzung mit dem Client-Gerät fortzusetzen. Die Anweisungen zum Fortsetzen der Kommunikationssitzung können die Kommunikationssitzung für eine vorgegebene Zeitspanne authentifizieren, sodass die Kommunikationssitzung bis zum Ablauf der vorgegebenen Zeit nicht erneut authentifiziert werden muss.
- Das Verfahren
300 kann zudem Übertragen einer Anweisung an ein Drittanbietergerät zum Deaktivieren der Kommunikationssitzung (ACT316 ) beinhalten. Deaktivieren der Kommunikationssitzung kann verhindern, dass Nachrichten und Aktionsdatenstrukturen an das Dienstanbietergerät übertragen werden. Dadurch kann die Netzwerkverwendung verbessert werden, indem unerwünschter Netzwerkverkehr verringert wird. Deaktivieren der Kommunikationssitzung kann den Rechenaufwand reduzieren, da die Geräte des Dienstanbieters keine Anfragen verarbeiten, die schädlich sind oder fehlerhaft generiert wurden. -
4 zeigt ein Blockdiagramm eines exemplarischen Computersystems400 . Das Computersystem oder Computergerät400 kann das System100 oder dessen Komponenten, wie z. B. das Datenverarbeitungssystem105 , beinhalten oder es kann verwendet werden, um diese zu implementieren. Das Computersystem400 beinhaltet einen Bus405 oder eine andere Kommunikationskomponente zur Übertragung von Informationen sowie einen Prozessor410 oder eine Verarbeitungsschaltung, die mit dem Bus405 gekoppelt sind und der Verarbeitung von Informationen dienen. Das Computersystem400 kann außerdem einen oder mehrere Prozessoren410 oder Verarbeitungsschaltungen beinhalten, die mit dem Bus gekoppelt sind und der Verarbeitung von Informationen dienen. Das Computersystem400 beinhaltet ferner Hauptspeicher415 , wie z. B. Direktzugriffsspeicher (RAM) oder ein anderes dynamisches Speichergerät, das mit dem Bus405 gekoppelt ist, um Daten zu speichern, sowie Anweisungen, die von dem Prozessor410 ausgeführt werden sollen. Der Hauptspeicher415 kann der Datenbehälter145 sein bzw. diesen beinhalten. Der Hauptspeicher415 kann bei Ausführung von Anweisungen durch den Prozessor410 ferner zum Speichern von Positionsdaten, temporären Variablen oder anderen mittelfristigen Informationen verwendet werden. Das Computersystem400 kann ferner einen Nur-Lese-Speicher (ROM)420 oder ein anderes statisches Speichergerät beinhalten, das mit dem Bus405 gekoppelt ist, um statische Informationen und Anweisungen für den Prozessor410 zu speichern. Mit dem Bus405 kann ein Speichergerät425 , wie z. B. ein Solid-State-Gerät, eine magnetische oder optische Platte, gekoppelt werden, um Informationen und Anweisungen dauerhaft zu speichern. Das Speichergerät425 kann den Datenbehälter145 beinhalten bzw. Teil davon sein. - Das Computersystem
400 kann über den Bus405 mit einer Anzeige435 , wie z. B. einer Flüssigkristallanzeige (LCD) oder aktiven Matrixanzeige, gekoppelt sein, um einem Benutzer Informationen anzuzeigen. Mit dem Bus405 kann ein Eingabegerät430 , wie z. B. eine Tastatur mit alphanumerischen und anderen Tasten, gekoppelt sein, damit sich ausgewählte Informationen und Befehle an den Prozessor410 übermitteln lassen. Das Eingabegerät430 kann eine Touchscreenanzeige435 beinhalten. Das Eingabegerät430 kann außerdem eine Cursorsteuerung, wie z. B. eine Maus, einen Trackball oder Pfeiltasten auf der Tastatur, beinhalten, sodass sich Richtungsdaten und ausgewählte Befehle an den Prozessor410 übermitteln und die Bewegung des Cursors auf der Anzeige435 steuern lassen. Die Anzeige435 kann beispielsweise Bestandteil des Datenverarbeitungssystems105 , des Client-Computergeräts150 oder anderer Komponenten von1 sein. - Die hierin beschriebenen Prozesse, Systeme und Verfahren können durch das Computersystem
400 in Reaktion darauf implementiert werden, dass der Prozessor410 einen in Hauptspeicher415 enthaltenen Anweisungssatz ausführt. Diese Anweisungen können von einem anderen computerlesbaren Medium, wie z. B. Speichergerät425 , in den Hauptspeicher415 gelesen werden. Die Ausführung des im Hauptspeicher415 enthaltenen Anweisungssatzes veranlasst das Computersystem400 , die hierin beschriebenen und dargestellten Prozesse auszuführen. In einer Multi-Prozessor-Anordnung können ein oder mehrere Prozessoren dazu genutzt werden, die im Hauptspeicher415 enthaltenen Befehle auszuführen. Festverdrahtete Schaltungen können anstelle von oder in Kombination mit Software-Anweisungen zusammen mit den hierin beschriebenen Systemen und Verfahren verwendet werden. Die hierin beschriebenen Systeme und Verfahren sind nicht auf eine spezifische Kombination aus Hardwareschaltungen und Software beschränkt. - Obgleich ein exemplarisches Computersystem in
4 beschrieben wurde, kann der Gegenstand, einschließlich der in dieser Spezifikation beschriebenen Vorgänge, in anderen Arten von digitalen elektronischen Schaltungen oder in Computersoftware, Firmware oder Hardware, darunter auch in den in dieser Spezifikation offenbarten Strukturen und deren strukturellen Entsprechungen oder in Kombinationen von einer oder mehrerer derselben, implementiert werden. - In Situationen, in denen die hierin erläuterten Systeme persönliche Informationen über Benutzer sammeln oder ggf. persönliche Informationen nutzen, kann den Benutzern die Möglichkeit eingeräumt werden, einzustellen, ob Programme oder Funktionen Benutzerinformationen (z. B. Informationen über das soziale Netzwerk eines Benutzers, soziale Aktionen oder Aktivitäten, Präferenzen eines Benutzers oder den Standort eines Benutzers) sammeln, bzw. einzustellen, ob oder inwiefern derselbe Inhalte von einem Inhaltsserver oder einem anderen Datenverarbeitungssystem empfangen kann, die für den Benutzer ggf. relevanter sind. Zusätzlich können gewisse Daten auf eine oder mehrere Weisen anonymisiert werden, bevor sie gespeichert oder verwendet werden, sodass personenbezogene Daten entfernt werden, wenn Parameter generiert werden. Eine Benutzeridentität kann beispielsweise anonymisiert werden, sodass keine personenbezogenen Informationen für den Benutzer bestimmt werden können, oder ein geografischer Standort des Benutzers verallgemeinert werden kann, wobei Standortinformationen (wie beispielsweise Stadt, Postleitzahl oder Bundesland) entnommen werden, sodass ein bestimmter Standort eines Benutzers nicht festgestellt werden kann. Somit kann der Benutzer Kontrolle darüber haben, wie Informationen über ihn oder sie gesammelt und von einem Inhaltsserver verwendet werden.
- Der Gegenstand und die in dieser Spezifikation beschriebenen Vorgänge können in digitalen elektronischen Schaltkreisanordnungen oder in Computersoftware, Firmware oder Hardware, darunter auch in den in dieser Spezifikation offenbarten Strukturen und deren strukturellen Entsprechungen oder in Kombinationen von einer oder mehrerer derselben, implementiert werden. Der in dieser Beschreibung beschriebene Gegenstand kann als ein oder mehrere Computerprogramme implementiert werden, z. B. als eine oder mehrere Schaltungen von Computerprogrammanweisungen, die auf einem oder mehreren Computerspeichermedien kodiert sind, um von Datenverarbeitungsvorrichtungen ausgeführt zu werden bzw. den Betrieb derselben zu steuern. Alternativ oder ergänzend dazu können die Programmanweisungen in einem künstlich erzeugten sich ausbreitenden Signal, wie beispielsweise einem maschinell erzeugten elektrischen, optischen oder elektromagnetischen Signal, kodiert sein, das erzeugt wird, um Informationen zur Übertragung an eine geeignete Empfängervorrichtung zu kodieren, damit diese von einer Datenverarbeitungsvorrichtung ausgeführt werden. Ein Computerspeichermedium kann ein computerlesbares Speichergerät, ein computerlesbares Speichersubstrat, ein frei adressierbares oder serielles Zugriffsspeicher-Array oder -Gerät oder eine Kombination derselben sein bzw. darin enthalten sein. Obwohl ein Computerspeichermedium kein sich ausbreitendes Signal ist, kann ein Computerspeichermedium jedoch eine Quelle oder ein Ziel von Computerprogrammbefehlen sein, die in einem künstlich erzeugten sich ausbreiteten Signal kodiert sind. Das Computerspeichermedium kann zudem eine oder mehrere separate Komponenten oder Medien sein (z. B. mehrere CDs, Datenträger oder andere Speichergeräte bzw. darin enthalten sein). Die in dieser Spezifikation beschriebenen Vorgänge können als Vorgänge implementiert werden, die durch eine Datenverarbeitungsvorrichtung an Daten ausgeführt werden, die auf einem oder mehreren computerlesbaren Speichergerät(en) gespeichert oder von anderen Quellen empfangen werden.
- Die Begriffe „Datenverarbeitungssystem“, „Computergerät“, „Komponente“ oder „Datenverarbeitungsvorrichtung“ umfassen verschiedene Geräte, Vorrichtungen und Maschinen zur Verarbeitung von Daten, einschließlich beispielsweise eines programmierbaren Prozessors, eines Computers, eines oder mehrerer Systeme auf einem Chip oder mehrerer derselben oder Kombinationen der vorstehenden. Die Vorrichtung kann eine Spezial-Logikschaltung, wie z. B. eine FPGA (feldprogrammierbare Universalschaltung) oder eine ASIC (anwendungsspezifische integrierte Schaltung), beinhalten. Das Gerät kann zusätzlich zur Hardware auch Code beinhalten, der eine Ausführungsumgebung für das entsprechende Computerprogramm, wie z. B. Code, erzeugt, der Prozessorfirmware, einen Protokollstapel, ein Datenbankverwaltungssystem, ein Betriebssystem, eine plattformübergreifende Laufzeitumgebung, einen virtuellen Computer oder eine Kombination derselben darstellt. Das Gerät und die Ausführungsumgebung können verschiedene Computermodell-Infrastrukturen, wie z. B. Webdienste, sowie verteilte Rechen- und räumlich verteilte Rechen-Infrastrukturen realisieren. Die Direktaktions-API
135 , die Inhaltsauswahlkomponente125 , die Netzwerksicherheitsvorrichtung123 oder die NLP-Komponente110 und andere Datenverarbeitungssystem-105 -Komponenten können beispielsweise eine oder mehrere Datenverarbeitungsvorrichtungen, Systeme, Computergeräte oder Prozessoren beinhalten oder teilen. - Ein Computerprogramm (auch als Programm, Software, Softwareanwendung, App, Softwaremodul, Script oder Code bezeichnet) kann in jeder beliebigen Form von Programmiersprache, darunter auch in kompilierten oder interpretierten Sprachen oder in deklarativen oder prozeduralen Sprachen geschrieben und in beliebiger Form, wie z. B. als allein lauffähiges Programm oder Modul, Komponente, Subroutine, Objekt oder als eine andere für den Einsatz in einer Computerumgebung geeignete Einheit, bereitgestellt werden. Ein Computerprogramm kann einer Datei in einem Dateisystem entsprechen. Ein Computerprogramm kann in einem Teil einer Datei gespeichert sein, die andere Programme oder Daten enthält (wie z. B. ein oder mehrere Scripts, die in einem Auszeichnungssprachen-Dokument gespeichert sind), in einer einzelnen dem betreffenden Programm gewidmeten Datei oder in mehreren koordinierten Dateien (wie beispielsweise Dateien, die ein oder mehrere Module, Teilprogramme oder Code-Abschnitte enthalten). Ein Computerprogramm kann auf einem Computer oder auf mehreren Computern bereitgestellt und ausgeführt werden, die sich an einem Standort oder an mehreren Standorten verteilt befinden und über ein Kommunikationsnetzwerk miteinander verbunden sind.
- Die in dieser Spezifikation beschriebenen Prozesse und logischen Abläufe können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen (z. B. Komponenten des Datenverarbeitungssystems
105 ), um durch Verarbeiten von Eingabedaten und Erzeugen von Ausgaben Vorgänge durchzuführen. Die Prozesse und Logikabläufe können zudem durch eine Spezial-Logikschaltung, wie z. B. einen feldprogrammierbaren Universalschaltkreis (FPGA) oder eine anwendungsspezifische integrierte Schaltung (ASIC) ausgeführt und Vorrichtungen in Form derselben implementiert werden. Zu den zum Speichern von Computerprogrammanweisungen und Daten geeigneten Medien gehören sämtliche Arten von Festspeichern, Medien und Speichergeräten, einschließlich Halbleiterspeicherelementen, darunter auch EPROM, EEPROM und Flash-Speichergeräte; magnetische Festplatten, wie z. B. interne Festplatten oder Wechselplatten; magnetooptische Festplatten, und CD-ROM- und DVD-ROM-Laufwerke. Der Prozessor und der Speicher können durch eine Spezial-Logikschaltung ergänzt oder in dieselbe integriert werden. - Der hierin beschriebene Gegenstand kann in einem Computersystem implementiert werden, das eine Back-End-Komponente, wie z. B. einen Datenserver, oder eine Middleware-Komponente, wie z. B. einen Anwendungsserver oder eine Front-End-Komponente, wie z. B. einen Client-Computer mit einer grafischen Benutzeroberfläche oder eine Kombination einer oder mehrerer der besagten Back-End-, Middleware- oder Front-End-Komponenten oder einen Web-Browser beinhaltet, durch den ein Benutzer mit einer in dieser Spezifikation beschriebenen Implementierung des Gegenstandes interagieren kann. Die Komponenten des Systems können durch eine beliebige Form oder ein beliebiges Medium digitaler Datenkommunikation, wie z. B. ein Kommunikationsnetzwerk, miteinander verbunden sein. Beispiele für Kommunikationsnetzwerke beinhalten ein lokales Netzwerk („LAN“) und ein Großraumnetzwerk („WAN“), ein Inter-Netzwerk (z. B. das Internet) und Peer-to-Peer-Netzwerke (z. B. ad hoc Peer-to-Peer-Netzwerke).
- Das Computersystem, wie z. B. System
100 oder System400 , kann Clients und Server beinhalten. Ein Client und ein Server befinden sich im Allgemeinen entfernt voneinander und interagieren typischerweise über ein Kommunikationsnetzwerk (z. B. das Netzwerk165 ). Die Beziehung zwischen Client und Server entsteht aufgrund von Computerprogrammen, die auf den jeweiligen Computern ausgeführt werden und die eine Client-Server-Beziehung zueinander aufweisen. In einigen Implementierungen sendet ein Server Daten (z. B. ein Inhaltselement darstellende Datenpakete) an ein Client-Gerät (z. B. zu Zwecken des Anzeigens von Daten und Empfangens von Benutzereingaben von einem Benutzer, der mit dem Client-Gerät interagiert). In dem Client-Gerät generierte Daten (z. B. ein Ergebnis der Benutzerinteraktion) können von dem Client-Gerät an dem Server empfangen werden (z. B. empfangen durch das Datenverarbeitungssystem105 von dem Computergerät150 oder dem Inhaltsanbietercomputergerät155 oder dem Dienstanbietercomputergerät160 ). - Obgleich die Vorgänge in den Zeichnungen in einer bestimmten Reihenfolge dargestellt sind, ist es nicht erforderlich, dass diese Vorgänge in der dargestellten bestimmten Reihenfolge oder in fortlaufender Reihenfolge durchgeführt werden, auch ist nicht erforderlich, dass alle veranschaulichten Vorgänge durchgeführt werden. Hierin beschriebene Aktionen können in einer unterschiedlichen Reihenfolge durchgeführt werden.
- Die Trennung verschiedener Systemkomponenten erfordert keine Trennung in sämtlichen Implementierungen, zudem können die beschriebenen Programmkomponenten in einem einzigen Hardware- oder Softwareprodukt enthalten sein. Die NLP-Komponente
110 , die Inhaltsauswahlkomponente125 oder die Netzwerksicherheitsvorrichtung123 kann beispielsweise eine einzelne Komponente, eine App oder ein Programm oder ein Logikgerät mit einer oder mehreren Verarbeitungsschaltungen oder Teil von einem oder mehreren Servern des Datenverarbeitungssystems105 sein. - Nachdem nunmehr einige veranschaulichende Implementierungen beschrieben wurden, ist es offensichtlich, dass das Vorstehende der Veranschaulichung und nicht als Einschränkung dient und lediglich auf exemplarische Art und Weise präsentiert wurde. Insbesondere können, obgleich viele der hierin präsentierten Beispiele spezifische Kombinationen von Verfahrensvorgängen oder Systemelementen beinhalten, diese Vorgänge und Elemente auf andere Weisen kombiniert werden, um dieselben Ziele zu erreichen. Vorgänge, Elemente und Merkmale, die im Zusammenhang mit einer Implementierung erläutert werden, sollen nicht von einer ähnlichen Rolle in anderen Implementierungen oder Ausführungsformen ausgeschlossen sein.
- Die hier verwendete Ausdrucksweise und Terminologie dient dem Zweck der Beschreibung und sollte nicht als Einschränkung betrachtet werden. Die Verwendung der Wörter „einschließlich“, „umfassend“, „aufweisend“, „enthaltend“, „einbeziehend“, „gekennzeichnet durch“, „dadurch gekennzeichnet, dass“ und Variationen derselben, soll hier bedeuten, dass die danach aufgelisteten Gegenstände, Äquivalente derselben und zusätzliche Gegenstände sowie alternative Implementierungen, die ausschließlich aus den danach aufgelisteten Gegenständen bestehen, mit umfasst sind. In einer Implementierung bestehen die hierin beschriebenen Systeme und Verfahren aus einem, aus jeder Kombination von mehr als einem oder aus allen der hierin beschriebenen Elemente, Wirkungsweisen oder Komponenten.
- Jegliche Bezugnahmen auf Implementierungen oder Elemente oder Wirkungsweisen der Systeme und Verfahren, auf die hierin in der Einzahl verwiesen wird, können auch Implementierungen einschließlich einer Vielzahl dieser Elemente umfassen, und jegliche Bezugnahmen auf eine Implementierung oder ein Element oder eine Wirkungsweise beliebiger Art, auf die hierin in der Mehrzahl verwiesen wird, kann auch Implementierungen einschließlich eines lediglich einzelnen Elements umfassen. Bezugnahmen auf die Singular- oder die Pluralform sind nicht gedacht, die vorliegend offenbarten Systeme und Verfahren, deren Komponenten, Wirkungsweisen oder Elemente auf einzelne oder mehrfache Konfigurationen einzuschränken. Bezugnahmen auf eine Wirkungsweise oder ein Element jeglicher Art, auf Basis von Informationen, Wirkungsweisen oder Elementen einer beliebigen Art können Implementierungen beinhalten, deren Wirkungsweise oder deren Element zumindest teilweise auf Informationen, Wirkungsweisen oder Elementen jeglicher Art basiert.
- Jede der hierin offenbarten Implementierungen kann mit jeder beliebigen anderen Implementierung oder Ausführungsform kombiniert werden, wobei die Bezugnahmen auf „eine Implementierung“, „einige Implementierungen“, „die eine Implementierung“ oder dergleichen einander nicht zwangsläufig ausschließen, sondern darauf hinweisen sollen, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Charakteristik, die im Zusammenhang mit der Implementierung beschrieben wird, in mindestens einer Implementierung oder Ausführungsform enthalten sein kann. Derartige Begriffe in der hierin verwendeten Form beziehen sich nicht notwendigerweise auf dieselbe Implementierung. Jede Implementierung kann einschließlich oder ausschließlich und auf jede Weise, die mit den hierin offenbarten Aspekten und Implementierungen im Einklang steht, mit jeder anderen Implementierung kombiniert werden.
- Verweise auf „oder“ können als einschließend ausgelegt werden, sodass alle Begriffe, die mithilfe von „oder“ beschrieben werden, einen beliebigen einzelnen, mehr als einen oder alle beschriebenen Begriffe angeben können. Eine Bezugnahme auf „mindestens eines von ‚A‘ und ‚B‘“ kann beispielsweise nur ‚A‘, nur ‚B‘ sowie sowohl ‚A‘ und ‚B‘ beinhalten. Diese Bezugnahmen, die in Verbindung mit „umfassend“ oder anderer offener Terminologie verwendet werden, können zusätzliche Elemente einbeziehen.
- Wenn technische Merkmale in den Zeichnungen, der ausführlichen Beschreibung oder einem beliebigen Anspruch von Bezugszeichen gefolgt werden, wurden die Bezugszeichen eingebunden, um die Verständlichkeit der Zeichnungen, der ausführlichen Beschreibung oder Ansprüche zu erhöhen. Dementsprechend haben weder solche Bezugszeichen noch deren Abwesenheit eine einschränkende Wirkung auf den Umfang der Anspruchselemente.
- Die hierin beschriebenen Systeme und Verfahren können außerdem durch andere Ausführungsformen realisiert werden, ohne von deren wesentlichen Eigenschaften abzuweichen. Die vorhergehenden Implementierungen werden eher als anschaulich denn als einschränkend für die hierin beschriebenen Systeme und Verfahren betrachtet. Der Geltungsbereich der hierin beschriebenen Systeme und Verfahren wird daher eher durch die beigefügten Ansprüche als durch die vorangehende Beschreibung angegeben, wobei Änderungen, welche innerhalb der Bedeutungen und des Bereichs der Äquivalenz der Ansprüche fallen, daher hierin eingeschlossen sind.
- ZITATE ENTHALTEN IN DER BESCHREIBUNG
- Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
- Zitierte Patentliteratur
-
- US 15395729 [0001]
Claims (17)
- System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, umfassend: eine Prozessorkomponente für natürliche Sprache, die durch ein Datenverarbeitungssystem ausgeführt wird, um über eine Schnittstelle des Datenverarbeitungssystems Datenpakete zu empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Eingabeaudiosignal umfassen; die Prozessorkomponente für natürliche Sprache, um das Eingabeaudiosignal zu parsen, um eine Anfrage und ein Auslöserschlüsselwort entsprechend der Anfrage zu identifizieren; eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems, um basierend auf dem Auslöserschlüsselwort eine erste Aktionsdatenstruktur in Reaktion auf die Anfrage zu generieren; eine Netzwerksicherheitsvorrichtung zum Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals, um einen Alarmzustand zu erkennen; eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente zum Empfangen des Auslöserschlüsselworts, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands, und basierend auf dem Auslöserschlüsselwort und der Angabe, Auswählen eines Inhaltselements; die Netzwerksicherheitsvorrichtung zum: Empfangen von Datenpaketen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat; Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals, um einen zweiten Alarmzustand zu erkennen; und Übertragen einer Anweisung basierend auf dem zweiten Alarmzustand an das Drittanbietergerät, um die mit dem Client-Gerät hergestellte Kommunikationssitzung zu deaktivieren.
- System nach
Anspruch 1 , mit der Netzwerksicherheitsvorrichtung zum: Bestimmen der ersten Eigenschaft des Eingabeaudiosignals; und Bestimmen der zweiten Eigenschaft der auditiven Signale, wobei die erste Eigenschaft und die zweite Eigenschaft mindestens eines von einem Stimmabdruck, einem Schlüsselwort, einer Anzahl von erkannten Stimmen, einer Identifikation des Client-Geräts und eines Standorts einer Quelle des Eingabeaudiosignals umfassen. - System nach
Anspruch 1 , wobei sich die erste Eigenschaft von der zweiten Eigenschaft unterscheidet. - System nach
Anspruch 1 , mit der Netzwerksicherheitsvorrichtung zum: Empfangen eines Standortes eines zweiten Client-Geräts; Bestimmen einer Distanz zwischen einem Standort des Client-Geräts und dem Standort des zweiten Client-Geräts; und Erkennen des Alarmzustands basierend auf der Distanz zwischen einem Standort des Client-Geräts und dem Standort des zweiten Client-Geräts. - System nach
Anspruch 4 , mit der Netzwerksicherheitsvorrichtung zum: Erkennen des Alarmzustands basierend auf der Distanz zwischen einem Standort des Client-Geräts und dem Standort des zweiten Client-Geräts, der sich über einem zuvor festgelegten Schwellenwert befindet. - System nach
Anspruch 1 , wobei das Inhaltselement Anweisungen zum Generieren eines auditiven Signals an dem Client-Gerät umfasst. - System nach
Anspruch 6 , wobei das auditive Signal eine Sicherheitsfrage umfasst. - System nach
Anspruch 1 , mit der Netzwerksicherheitsvorrichtung zum: Deaktivieren der ersten Aktionsdatenstruktur in Reaktion auf Erkennen des ersten Alarmzustands. - System nach
Anspruch 1 , mit der Inhaltsauswahlelement zum: Generieren von Anweisungen, um die zweite Eigenschaft des Antwort-Audiosignals in dem Inhaltselement zu erfassen. - System nach
Anspruch 1 , mit der Netzwerksicherheitsvorrichtung zum: Abschließen der Kommunikationssitzung, die mit dem Client-Gerät hergestellt wurde, in Reaktion auf die Interaktion mit dem Inhaltselement. - System nach
Anspruch 1 , mit der Netzwerksicherheitsvorrichtung zum Bestimmen eines Betrags an Rechenressourcen, die zum Abschließen der Anfrage erforderlich sind. - System nach
Anspruch 11 , mit der Netzwerksicherheitsvorrichtung zum Einstellen des Alarmzustands in Reaktion darauf, dass der Betrag an Rechenressourcen über einem zuvor festgelegten Schwellenwert liegt. - System nach
Anspruch 1 , mit der Prozessorkomponente für natürliche Sprache zum Parsen des Antwort-Audiosignals, um eine Passphrase zu identifizieren. - System nach
Anspruch 13 , mit der Netzwerksicherheitsvorrichtung zum Einstellen des zweiten Alarmzustands basierend auf der Passphrase, die nicht mit einer gespeicherten Passphrase übereinstimmt. - System nach
Anspruch 13 , wobei die Passphrase die zweite Eigenschaft ist. - System zum Authentifizieren von paketierten Audiosignalen in einer sprachaktivierten Computernetzwerkumgebung, umfassend: eine Prozessorkomponente für natürliche Sprache, die durch ein Datenverarbeitungssystem ausgeführt wird, um über eine Schnittstelle des Datenverarbeitungssystems Datenpakete zu empfangen, die ein durch einen Sensor eines Client-Geräts erkanntes Eingabeaudiosignal umfassen; die Prozessorkomponente für natürliche Sprache, um das Eingabeaudiosignal zu parsen, um eine Anfrage und ein Auslöserschlüsselwort entsprechend der Anfrage zu identifizieren; eine Direktaktions-Anwendungsprogrammierschnittstelle des Datenverarbeitungssystems, um basierend auf dem Auslöserschlüsselwort eine erste Aktionsdatenstruktur in Reaktion auf die Anfrage zu generieren; eine Netzwerksicherheitsvorrichtung zum Vergleichen der ersten Aktionsdatenstruktur mit einer ersten Eigenschaft des Eingabeaudiosignals, um einen Alarmzustand zu erkennen; eine durch das Datenverarbeitungssystem ausgeführte Inhaltsauswahlkomponente zum Empfangen des Auslöserschlüsselworts, das durch den Prozessor für natürliche Sprache identifiziert wird, und die Angabe des ersten Alarmzustands, und basierend auf dem Auslöserschlüsselwort und der Angabe, Auswählen eines Inhaltselements; die Netzwerksicherheitsvorrichtung zum: Empfangen von Datenpaketen, die ein Antwort-Audiosignal tragen, das zwischen dem Client-Gerät und einer Konversations-Anwendungsprogrammierschnittstelle übertragen wird, die eine Kommunikationssitzung mit dem Client-Gerät hergestellt hat; Vergleichen einer zweiten Eigenschaft des Antwort-Audiosignals mit der ersten Eigenschaft des Eingabeaudiosignals, um einen Passzustand zu erkennen; und Übertragen einer Anweisung basierend auf dem Passzustand an das Drittanbietergerät, um die mit dem Client-Gerät hergestellte Kommunikationssitzung fortzusetzen.
- System nach
Anspruch 16 , mit der Netzwerksicherheitsvorrichtung zum: Bestimmen der ersten Eigenschaft des Eingabeaudiosignals; und Bestimmen der zweiten Eigenschaft der auditiven Signale, wobei die erste Eigenschaft und die zweite Eigenschaft mindestens eines von einem Stimmabdruck, einem Schlüsselwort, einer Anzahl von erkannten Stimmen, einer Identifikation des Client-Geräts und eines Standorts einer Quelle des Eingabeaudiosignals umfassen, und wobei die zweite Eigenschaft eine Sicherheitsfrage umfasst.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/395,729 | 2016-12-30 | ||
US15/395,729 US10541997B2 (en) | 2016-12-30 | 2016-12-30 | Authentication of packetized audio signals |
PCT/US2017/049721 WO2018125300A1 (en) | 2016-12-30 | 2017-08-31 | Authentication of packetized audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
DE212017000294U1 true DE212017000294U1 (de) | 2019-10-10 |
Family
ID=59859632
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE212017000294.8U Active DE212017000294U1 (de) | 2016-12-30 | 2017-08-31 | Authentifizierung von paketierten Audiosignalen |
DE112017000177.3T Pending DE112017000177T5 (de) | 2016-12-30 | 2017-08-31 | Authentifizierung von paketierten Audiosignalen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112017000177.3T Pending DE112017000177T5 (de) | 2016-12-30 | 2017-08-31 | Authentifizierung von paketierten Audiosignalen |
Country Status (8)
Country | Link |
---|---|
US (3) | US10541997B2 (de) |
EP (3) | EP3916594A1 (de) |
JP (3) | JP6692832B2 (de) |
KR (3) | KR102421668B1 (de) |
CN (2) | CN108605043B (de) |
DE (2) | DE212017000294U1 (de) |
GB (2) | GB202114214D0 (de) |
WO (1) | WO2018125300A1 (de) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10719591B1 (en) | 2013-03-15 | 2020-07-21 | Google Llc | Authentication of audio-based input signals |
FR3067489A1 (fr) * | 2017-06-20 | 2018-12-14 | Orange | Dispositifs et procedes de communication |
US11244050B2 (en) * | 2018-12-03 | 2022-02-08 | Mayachitra, Inc. | Malware classification and detection using audio descriptors |
US10565365B1 (en) * | 2019-02-21 | 2020-02-18 | Capital One Services, Llc | Systems and methods for data access control using narrative authentication questions |
US11122423B2 (en) | 2019-06-26 | 2021-09-14 | Vmware, Inc. | Proximity based authentication of a user through a voice assistant device |
CN110991812A (zh) * | 2019-11-08 | 2020-04-10 | 云南电网有限责任公司大理供电局 | 一种基于自然语言处理技术的电网数据管理系统 |
US11570165B2 (en) * | 2019-12-09 | 2023-01-31 | Vmware, Inc. | Single sign-on service authentication through a voice assistant |
US11830098B2 (en) | 2020-01-02 | 2023-11-28 | Vmware, Inc. | Data leak prevention using user and device contexts |
CN113328954B (zh) * | 2021-05-25 | 2023-09-19 | 深圳证券通信有限公司 | 一种阻断限制源端传输业务数据包的方法 |
Family Cites Families (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3617882B2 (ja) * | 1996-03-08 | 2005-02-09 | 株式会社東芝 | セキュリティ装置及びセキュリティ実現方法 |
US6421453B1 (en) | 1998-05-15 | 2002-07-16 | International Business Machines Corporation | Apparatus and methods for user recognition employing behavioral passwords |
US6275806B1 (en) | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US8019609B2 (en) | 1999-10-04 | 2011-09-13 | Dialware Inc. | Sonic/ultrasonic authentication method |
US6684249B1 (en) | 2000-05-26 | 2004-01-27 | Sonicbox, Inc. | Method and system for adding advertisements over streaming audio based upon a user profile over a world wide area network of computers |
US6857007B1 (en) | 2000-08-30 | 2005-02-15 | Bloomfield Enterprises, Llc | Personal digital assistant facilitated communication system |
TW473675B (en) * | 2000-09-29 | 2002-01-21 | C A I Co Ltd | Topics dialog procedures and system |
US20020149705A1 (en) | 2001-04-12 | 2002-10-17 | Allen Paul G. | Contact list for a hybrid communicator/remote control |
US8091100B2 (en) | 2001-06-18 | 2012-01-03 | The Nielsen Company (Us), Llc | Prompting of audience member identification |
US20030147624A1 (en) * | 2002-02-06 | 2003-08-07 | Koninklijke Philips Electronics N.V. | Method and apparatus for controlling a media player based on a non-user event |
GB2391373A (en) | 2002-07-31 | 2004-02-04 | David Toms | A system for the automatic detection of a fraudulent transaction |
GB2410359A (en) | 2004-01-23 | 2005-07-27 | Sony Uk Ltd | Display |
US7853255B2 (en) | 2004-04-16 | 2010-12-14 | Broadcom Corporation | Digital personal assistance via a broadband access gateway |
US20060041926A1 (en) | 2004-04-30 | 2006-02-23 | Vulcan Inc. | Voice control of multimedia content |
AU2005246437B2 (en) * | 2004-05-21 | 2011-10-06 | Voice On The Go Inc. | Remote access system and method and intelligent agent therefor |
US10333731B2 (en) | 2005-06-09 | 2019-06-25 | Whirlpool Corporation | Methods and apparatus for communicatively coupling internal components within appliances, and appliances with external components and accessories |
US20060293891A1 (en) * | 2005-06-22 | 2006-12-28 | Jan Pathuel | Biometric control systems and associated methods of use |
US8195133B2 (en) | 2005-09-14 | 2012-06-05 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US7904505B2 (en) | 2005-11-02 | 2011-03-08 | At&T Intellectual Property I, L.P. | Service to push author-spoken audio content with targeted audio advertising to users |
EP2523443B1 (de) | 2006-02-10 | 2014-01-29 | Nuance Communications, Inc. | Benutzerunabhängiges, vorrichtungsunabhängiges Multiskala-Sprachnachrichten-zu-Text-Umwandlungssystem |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP2008090545A (ja) * | 2006-09-29 | 2008-04-17 | Toshiba Corp | 音声対話装置および音声対話方法 |
US8027518B2 (en) | 2007-06-25 | 2011-09-27 | Microsoft Corporation | Automatic configuration of devices based on biometric data |
US8934871B2 (en) * | 2007-08-31 | 2015-01-13 | Qualcomm Incorporated | Accessing subscribed content with a mobile computing device |
WO2009067670A1 (en) | 2007-11-21 | 2009-05-28 | Gesturetek, Inc. | Media preferences |
US8299889B2 (en) | 2007-12-07 | 2012-10-30 | Cisco Technology, Inc. | Home entertainment system providing presence and mobility via remote control authentication |
US9628208B2 (en) | 2008-02-26 | 2017-04-18 | International Business Machines Corporation | System, method and program product for customizing presentation of television content to a specific viewer and location |
US20090262069A1 (en) | 2008-04-22 | 2009-10-22 | Opentv, Inc. | Gesture signatures |
US8145561B1 (en) | 2009-01-05 | 2012-03-27 | Sprint Communications Company L.P. | Phone usage pattern as credit card fraud detection trigger |
US8838815B2 (en) | 2009-05-29 | 2014-09-16 | At&T Intellectual Property I, L.P. | Systems and methods to make a resource available via a local network |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9118488B2 (en) * | 2010-06-17 | 2015-08-25 | Aliphcom | System and method for controlling access to network services using biometric authentication |
US20120140069A1 (en) | 2010-11-30 | 2012-06-07 | 121View Usa | Systems and methods for gathering viewership statistics and providing viewer-driven mass media content |
US8849199B2 (en) | 2010-11-30 | 2014-09-30 | Cox Communications, Inc. | Systems and methods for customizing broadband content based upon passive presence detection of users |
US8504691B1 (en) * | 2010-12-29 | 2013-08-06 | Amazon Technologies, Inc. | System and method for allocating resources for heterogeneous service requests |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9021565B2 (en) | 2011-10-13 | 2015-04-28 | At&T Intellectual Property I, L.P. | Authentication techniques utilizing a computing device |
JP5866728B2 (ja) * | 2011-10-14 | 2016-02-17 | サイバーアイ・エンタテインメント株式会社 | 画像認識システムを備えた知識情報処理サーバシステム |
US9082004B2 (en) | 2011-12-15 | 2015-07-14 | The Nielsen Company (Us), Llc. | Methods and apparatus to capture images |
US20130173765A1 (en) | 2011-12-29 | 2013-07-04 | United Video Properties, Inc. | Systems and methods for assigning roles between user devices |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8971854B2 (en) * | 2012-06-19 | 2015-03-03 | Honeywell International Inc. | System and method of speaker recognition |
US8543834B1 (en) * | 2012-09-10 | 2013-09-24 | Google Inc. | Voice authentication and command |
US9398335B2 (en) | 2012-11-29 | 2016-07-19 | Qualcomm Incorporated | Methods and apparatus for using user engagement to provide content presentation |
US8769557B1 (en) | 2012-12-27 | 2014-07-01 | The Nielsen Company (Us), Llc | Methods and apparatus to determine engagement levels of audience members |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9460715B2 (en) | 2013-03-04 | 2016-10-04 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
US9171450B2 (en) * | 2013-03-08 | 2015-10-27 | Qualcomm Incorporated | Emergency handling system using informative alarm sound |
JP6522503B2 (ja) * | 2013-08-29 | 2019-05-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器制御方法、表示制御方法及び購入決済方法 |
US9343068B2 (en) * | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
US9762684B2 (en) * | 2013-09-25 | 2017-09-12 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for implementing action instruction based on barcode |
US9443522B2 (en) | 2013-11-18 | 2016-09-13 | Beijing Lenovo Software Ltd. | Voice recognition method, voice controlling method, information processing method, and electronic apparatus |
CN103957522B (zh) * | 2014-04-16 | 2018-05-11 | 华为技术有限公司 | 一种智能通讯方法、终端及系统 |
US9384738B2 (en) | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
US9257120B1 (en) * | 2014-07-18 | 2016-02-09 | Google Inc. | Speaker verification using co-location information |
US10127911B2 (en) * | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
CN105208014B (zh) * | 2015-08-31 | 2018-09-25 | 腾讯科技(深圳)有限公司 | 一种语音通信处理方法、电子设备及系统 |
US20170092278A1 (en) | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
US9747926B2 (en) | 2015-10-16 | 2017-08-29 | Google Inc. | Hotword recognition |
US9928840B2 (en) | 2015-10-16 | 2018-03-27 | Google Llc | Hotword recognition |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
KR102575634B1 (ko) | 2016-07-26 | 2023-09-06 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 동작 방법 |
-
2016
- 2016-12-30 US US15/395,729 patent/US10541997B2/en active Active
-
2017
- 2017-08-31 CN CN201780001665.6A patent/CN108605043B/zh active Active
- 2017-08-31 WO PCT/US2017/049721 patent/WO2018125300A1/en active Application Filing
- 2017-08-31 DE DE212017000294.8U patent/DE212017000294U1/de active Active
- 2017-08-31 KR KR1020217018943A patent/KR102421668B1/ko active IP Right Grant
- 2017-08-31 DE DE112017000177.3T patent/DE112017000177T5/de active Pending
- 2017-08-31 CN CN202110347179.8A patent/CN113141397B/zh active Active
- 2017-08-31 KR KR1020177031374A patent/KR102137224B1/ko active IP Right Grant
- 2017-08-31 EP EP21186687.6A patent/EP3916594A1/de active Pending
- 2017-08-31 EP EP19179005.4A patent/EP3557462B1/de active Active
- 2017-08-31 GB GBGB2114214.6A patent/GB202114214D0/en not_active Ceased
- 2017-08-31 EP EP17767968.5A patent/EP3360307B1/de active Active
- 2017-08-31 JP JP2017556917A patent/JP6692832B2/ja active Active
- 2017-08-31 KR KR1020207020741A patent/KR102269618B1/ko active IP Right Grant
- 2017-08-31 GB GB1802838.1A patent/GB2563965B/en active Active
-
2018
- 2018-01-05 US US15/863,042 patent/US10541998B2/en active Active
-
2019
- 2019-12-23 US US16/725,371 patent/US10917404B2/en active Active
-
2020
- 2020-04-14 JP JP2020072218A patent/JP6922028B2/ja active Active
-
2021
- 2021-07-28 JP JP2021123300A patent/JP7386829B2/ja active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE212017000294U1 (de) | Authentifizierung von paketierten Audiosignalen | |
JP7471333B2 (ja) | 音声起動されたデータ・パケットのデータ構造プーリング | |
DE112017000092T5 (de) | Sequenzabhängige vorgangsverarbeitung von paketbasierten datennachrichtenübertragungen | |
DE112017000169T5 (de) | Gerätekennungsabhängige vorgangsverarbeitung von paketbasierter datenkommunikation | |
DE112017000122T5 (de) | Natürliche Sprachverarbeitung für den Sitzungsaufbau mit Serviceprovidern | |
DE112017000139T5 (de) | Modulation von paketierten Audiosignalen | |
DE212017000329U1 (de) | Selektives Sensorabfragen | |
DE112017000142T5 (de) | Multimodale übertragung von paketierten daten | |
DE212017000053U1 (de) | Sequenzabhängige Datennachrichtenkonsolidierung in einer sprachaktivierten Computernetzwerkumgebung | |
DE202017107937U1 (de) | Modifikation einer audiobasierten Computerprogrammausgabe | |
DE112017000131T5 (de) | Rückmeldungssteuerung für Datenübertragungen | |
DE202017107939U1 (de) | Ausgleichen von Modifikationen einer audiobasierten Computerprogrammausgabe | |
DE202017107941U1 (de) | Ausgleichen von Modifikationen einer audiobasierten Computerprogrammausgabe | |
DE102017131381A1 (de) | Validieren der Modifikation einer audiobasierten Computerprogrammausgabe | |
CN110637300B (zh) | 在联网环境中延迟的双因素认证 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification | ||
R082 | Change of representative |
Representative=s name: KILBURN & STRODE LLP, GB Representative=s name: KILBURN & STRODE LLP, NL |
|
R082 | Change of representative |
Representative=s name: KILBURN & STRODE LLP, GB Representative=s name: KILBURN & STRODE LLP, NL |
|
R150 | Utility model maintained after payment of first maintenance fee after three years | ||
R082 | Change of representative |
Representative=s name: KILBURN & STRODE LLP, NL |
|
R082 | Change of representative |
Representative=s name: KILBURN & STRODE LLP, NL |
|
R151 | Utility model maintained after payment of second maintenance fee after six years |