DE112018002849T5

DE112018002849T5 - System und Verfahren zur Anpassung einer Anfrageantwort eines elektronischen digitalen Assistenten als Funktion von einer zuvor erfassten Benutzeraufnahme von zugehörigen Videoinformationen

Info

Publication number: DE112018002849T5
Application number: DE112018002849.6T
Authority: DE
Inventors: Patrick D. Koskan; Alejandro G. Blanco
Original assignee: Motorola Solutions Inc
Current assignee: Motorola Solutions Inc
Priority date: 2017-06-05
Filing date: 2018-05-24
Publication date: 2020-02-13
Also published as: WO2018226423A4; WO2018226423A1; US10528794B2; CA3066076C; AU2018281924B2; CA3066076A1; US20180349678A1; EP3635642A1; AU2018281924A1

Abstract

Ein Verfahren bei einer elektronischen Datenverarbeitungsvorrichtung, das eine von einem elektronischen digitalen Assistenten erzeugte Anfrageantwort als Funktion von zuvor erfassten Benutzeraufnahmen von zugehörigen Informationen beinhaltet das Empfangen, von einer Videoerfassungsvorrichtung eingerichtet zum Verfolgen einer Blickrichtung eines ersten Benutzers, eines Videostreams mit einem ersten Sichtfeld des ersten Benutzers. Ein Objekt ist dann in dem Videostream mit dem erstem Sichtfeld identifiziert, das in dem ersten Sichtfeld für eine vorbestimmte Schwellenwertzeitspanne verbleibt, und das Objekt wird durch einen Videoverarbeitungsalgorithmus verarbeitet, um Objektinformationen zu produzieren, die dann gespeichert wird. Anschließend wird eine Anfrage von dem ersten Benutzer nach Informationen empfangen und es wird bestimmt, dass die Anfrage die Objektinformationen betrifft. Der elektronische digitale Assistent stellt dann eine Antwort auf die Anfrage als Funktion der Objektinformationen bereit.

Description

HINTERGRUND DER ERFINDUNG
Tablets, Laptops, Telefone (beispielsweise Mobil- oder Satellitentelefone, mobile (fahrzeuggebundene) oder tragbare (persönliche) Zweiwegefunkgeräte und andere mobile Datenverarbeitungsvorrichtungen, werden heute von Benutzern, wie zum Beispiel Ersthelfern (einschließlich, unter anderem, Feuerwehrleute, Polizeibeamte und Sanitäter), häufig genutzt und stellen diesen Benutzern und Anderen einen sofortigen Zugang zu immer wertvolleren zusätzlichen Informationen und Ressourcen bereit, wie zum Beispiel Fahrzeughistorien, Vorstrafenregister („arrest record“), ausstehende Haftbefehle, Gesundheitsinformationen, Echtzeitverkehr oder andere situationsbezogene Statusinformationen und jedwede anderen Informationen, die dem Benutzer helfen können, eine besser informierte Entscheidung über eine Maßnahme zu treffen oder wie eine Situation zu lösen ist, unter anderen Möglichkeiten.
Viele dieser mobilen Datenverarbeitungsvorrichtungen umfassen, oder bieten Zugang zu, elektronischen digitalen Assistenten (oder werden manchmal auch als „virtuelle Partner“ bezeichnet), die ihrem Benutzer in automatischer Weise (beispielsweise ohne weitere Benutzereingaben) oder in halbautomatischer Weise (beispielsweise mit weiteren Benutzereingaben) wertvolle Informationen zur Verfügung stellen können. Die dem Benutzer zur Verfügung gestellten wertvollen Informationen können auf ausdrücklichen Anfragen nach solchen Informationen beruhen, die der Benutzer über eine Eingabe (zum Beispiel eine analysierte natürliche Spracheingabe oder eine mit einer ausdrücklichen Anfrage verbundene elektronische Touch-Schnittstellenmanipulation) stellt, wobei der der elektronische digitale Assistent reaktiv solche angeforderten wertvollen Informationen bereitstellen kann, oder können auf einer anderen Zusammenstellung eines oder mehrerer Zusammenhänge oder Auslöser beruhen, in denen der elektronische digitale Assistent dem Benutzer diese wertvollen Informationen proaktiv zur Verfügung stellen kann, ohne dass der Benutzer eine ausdrückliche Anfrage stellt.
Als einige bestehende Beispiele, elektronische digitale Assistenten, wie Siri von Apple, Inc.© und Google Now von Google, Inc.®, sind Softwareapplikationen, die auf darunterliegender elektronischer Hardware laufen, die in der Lage sind, natürliche Sprache zu verstehen, und die elektronische Aufgaben als Reaktion auf Benutzerspracheingaben erledigen können, neben anderen zusätzlichen oder alternativen Arten von Eingaben. Diese elektronischen digitalen Assistenten können Aufgaben ausführen, wie zum Beispiel das Aufnehmen und Speichern von Sprachdiktaten zur späteren Verwendung und zum späteren Abrufen, das Vorlesen einer empfangenen Textnachricht oder einer E-Mail-Nachricht, das Erzeugen einer Textnachricht oder E-Mail-Nachrichtenbeantwortung, das Nachschlagen angefragter Telefonnummern und das Einleiten eines Telefonats zu einem angefragten Kontakt, das Erzeugen von Kalenderterminen und das Bereitstellen von Terminerinnerungen, das Warnen von Benutzern vor in der Nähe liegenden Gefahren wie Verkehrsunfällen oder Umweltgefahren und das Bereitstellen vieler anderer Arten von Informationen auf reaktive oder proaktive Weise.
Darüber hinaus verbessert sich mit zunehmender Anzahl von stationären, am Körper getragenen und fahrzeuggestützten Kameras, die den Benutzern zur Verfügung stehen und abteilungs- und organisationsübergreifend zugänglich sind, auch die Möglichkeit und Fähigkeit, interessierende Objekte in Echtzeit zu identifizieren und zu kategorisieren und diese Informationen zur Ergänzung der dem elektronischen digitalen Assistenten zugänglichen Informationen zu verwenden.
Während jedoch herkömmliche elektronische digitale Assistenten in der Lage sein können, diese Videostreams bei der Beantwortung von Benutzeranfragen zu beziehen, ist es solchen herkömmlichen elektronischen digitalen Assistenten nicht gelungen, diese Informationen intelligenter zu filtern, um Antworten auf Benutzeranfragen zu bilden.
Daher besteht Bedarf an einem verbesserten technischen Verfahren, einer Vorrichtung und einem System für einen elektronischen digitalen Assistenten, um Video in Bezug auf eine bestimmte Benutzerwahrnehmung dieses Videos rechnerisch zu verarbeiten und die Anfrageantwort des elektronischen digitalen Assistenten auf eine nachfolgende Anfrage des Benutzers entsprechend anzupassen.
Figurenliste
Die beigefügten Abbildungen, bei denen sich gleiche Bezugszahlen auf identische oder funktional ähnliche Elemente in den einzelnen Ansichten beziehen, sind zusammen mit der folgenden detaillierten Beschreibung einbezogen in die Beschreibung und bilden einen Teil derselben und dienen zum weiteren Veranschaulichen von Ausführungsformen und Konzepten, die die beanspruchte Erfindung beinhalten und erklären verschiedene Prinzipien und Vorteile dieser Ausführungsformen.

1 ist ein Systemdiagramm, das ein System zum Betreiben eines elektronischen digitalen Assistenten darstellt, gemäß einigen Ausführungsformen.
2 ist ein Vorrichtungsdiagramm, das eine Vorrichtungsstruktur einer elektronischen Datenverarbeitungsvorrichtung zum Betreiben eines elektronischen digitalen Assistenten zeigt, gemäß einigen Ausführungsformen.
3 veranschaulicht ein Flussdiagramm, das die Verfahrensschritte zum Betreiben des elektronischen digitalen Assistenten aus den 1 und/oder 2 darstellt, in Übereinstimmung mit einigen Ausführungsformen.

Fachleute werden erkennen, dass Elemente in den Figuren zum Zwecke der Einfachheit und Klarheit veranschaulicht sind und nicht notwendigerweise maßstabsgetreu gezeichnet sind. Zum Beispiel können die Abmessungen einiger der Elemente in den Figuren im Vergleich zu anderen Elementen übertrieben sein, um dabei zu helfen, das Verständnis von Ausführungsformen der vorliegenden Erfindung zu verbessern.
Die Vorrichtungs- und Verfahrenskomponenten wurden dort, wo es angemessen erscheint, durch konventionelle Symbole in den Zeichnungen dargestellt, wobei nur jene spezifischen Einzelheiten gezeigt werden, die für ein Verständnis der Ausführungsformen der vorliegenden Erfindung wesentlich sind, um so die Offenbarung nicht mit Einzelheiten zu verschleiern, die für jene Durchschnittsfachleute ohne weiteres erkennbar sind, die den Vorteil dieser Beschreibung genießen.
Offenbart wird ein verbessertes technisches Verfahren, eine verbesserte Vorrichtung und ein verbessertes System für einen elektronischen digitalen Assistenten, um Video in Bezug auf eine bestimmte Benutzerwahrnehmung dieses Videos rechnerisch zu verarbeiten und die Anfrageantwort des elektronischen digitalen Assistenten auf eine nachfolgende Anfrage des Benutzers entsprechend anzupassen.
In einer Ausführungsform beinhaltet ein Verfahren zum Anpassen einer von einem elektronischen digitalen Assistenten erzeugten Anfrageantwort als Funktion von einer zuvor erfassten Benutzeraufnahme von zugehörigen Informationen: das Empfangen, bei einer elektronischen Verarbeitungsvorrichtung, von einer Videoerfassungsvorrichtung, die eingerichtet ist zum Verfolgen einer Blickrichtung eines ersten Benutzers, eines Videostreams mit einem ersten Sichtfeld, das im Wesentlichen mit einem Sichtfeld des ersten Benutzers übereinstimmt; das Identifizieren, durch die elektronische Verarbeitungsvorrichtung, eines Objekts in dem Videostream mit einem ersten Sichtfeld, das für eine vorbestimmte Schwellenwertzeitperiode in dem ersten Sichtfeld verbleibt und antwortend, das Verarbeiten des Objekts durch einen Videoverarbeitungsalgorithmus und das Verursachen, durch die elektronische Verarbeitungsvorrichtung, Objektinformationen betreffend die Objektausgabe von dem Videoverarbeitungsalgorithmus in einem nicht flüchtigen Speicher zu speichern; anschließend das Empfangen, bei der elektronischen Verarbeitungsvorrichtung, einer Informationsanfrage von dem ersten Benutzer; das Bestimmen, durch die elektronische Verarbeitungsvorrichtung, dass die Anfrage die Objektinformationen betrifft; und das Bereitstellen, durch die elektronische Verarbeitungsvorrichtung, einer Antwort auf die Anfrage als Funktion der Objektinformationen.
In einer weiteren Ausführungsform beinhaltet eine elektronische Verarbeitungsvorrichtung zum Anpassen einer Anfrageantwort einer künstlichen Intelligenz als Funktion von zuvor erfassten Benutzeraufnahmen von zugehörigen Informationen: einen Speicher; einen Transceiver; und einen oder mehrere Prozessoren eingerichtet zum: Empfangen, von einer Videoerfassungsvorrichtung eingerichtet zum Verfolgen einer Blickrichtung eines ersten Benutzers, eines Videostreams mit einem ersten Sichtfeld, das im Wesentlichen mit einem Sichtfeld des ersten Benutzers übereinstimmt; Identifizieren eines Objekts in dem Videostream mit dem ersten Sichtfeld, das in dem ersten Sichtfeld für eine vorbestimmte Schwellenwertzeitspanne verbleibt und antwortend das Verarbeiten des Objekts durch einen Videoverarbeitungsalgorithmus und das Verursachen, durch die elektronische Verarbeitungsvorrichtung, dass Objektinformationen betreffend die Objektausgabe von dem Videoverarbeitungsalgorithmus in einem nicht flüchtigen Speicher gespeichert werden; anschließendes Empfangen einer Anfrage nach Informationen von dem ersten Benutzer; Bestimmen, dass die Anfrage die Objektinformationen betrifft; und Bereitstellen einer Antwort auf die Anfrage, über eines aus: dem Transceiver, einem Display, das kommunikativ mit der elektronischen Datenverarbeitungsvorrichtung gekoppelt ist, oder einem Lautsprecher, der kommunikativ mit der elektronischen Datenverarbeitungsvorrichtung gekoppelt ist, als Funktion der Objektinformationen.
Jede der oben genannten Ausführungsformen wird im Folgenden näher erläutert, beginnend mit einem beispielhaften Kommunikationssystem und Vorrichtungsarchitekturen des Systems, in dem die Ausführungsformen betrieben werden können, gefolgt von einer Darstellung von Verfahrensschritten zur Erreichung des verbesserten technischen Verfahrens, der Vorrichtung und des Systems für einen elektronischen digitalen Assistenten zur rechnerischen Verarbeitung von Video in Bezug auf eine bestimmte Benutzerwahrnehmung dieses Videos und zur entsprechenden Anpassung der Anfrageantwort des elektronischen digitalen Assistenten auf eine nachfolgende Anfrage durch den Benutzer. Weitere Vorteile und Merkmale, die mit dieser Offenbarung übereinstimmen, werden in der folgenden ausführlichen Beschreibung unter Bezugnahme auf die Zahlen dargelegt.
Kommunikationssystem- und Vorrichtungsstrukturen
Aufbau des Kommunikationssystems
Bezugnehmend auf die Zeichnungen, und insbesondere auf 1, stellt ein Kommunikationssystemdiagramm ein System 100 von Vorrichtungen dar, die einen ersten Satz von Vorrichtungen beinhalten, die ein Benutzer 102 (dargestellt in 1 als ein als erster reagierender Polizeibeamter („first responder police officer“)) tragen kann, wie zum Beispiel ein primäres batteriebetriebenes tragbares Funkgerät 104, das für Schmalband- und/oder Breitband-Direktmodus oder Infrastrukturkommunikation verwendet wird, ein batteriebetriebenes Funkgerät-Lautsprechermikrofon (RSM), eine Videoerfassungsvorrichtung 106, ein Laptop 114 mit integrierter Videokamera, der für Datenapplikationen wie beispielsweise Vorfallsunterstützunganwendungen („incident support applications“) verwendet wird, Smart-Brillen 116 (die beispielsweise eine Virtual-Reality-, eine Augmented-Reality- oder eine Mixed-Reality-Brille sein können, können eine Videokamera beinhalten, und/oder können eine Head-Tracking und/oder Augen-Tracking-Funktion beinhalten), ein sensorgestütztes Holster 118 und/oder ein biometrisches Sensorarmband 120. Obwohl 1 nur einen einzelnen Benutzer 102 mit einem entsprechenden ersten Satz von Vorrichtungen darstellt, kann der einzelne Benutzer 102 in anderen Ausführungsformen zusätzliche Sätze von gleichen oder ähnlichen Vorrichtungen beinhalten, und zusätzliche Benutzer können mit entsprechenden zusätzlichen Sätzen von gleichen oder ähnlichen Vorrichtungen vorhanden sein.
Das System 100 kann auch ein mit dem Benutzer 102 assoziiertes Fahrzeug 132 (wobei der Benutzer 102 als mögliche Alternative im Fahrersitz des Fahrzeugs 132 sitzend dargestellt ist) mit einer integrierten Fahrzeugdatenverarbeitungsvorrichtung 133, einer assoziierten Fahrzeugvideokamera 134 und/oder einem Mikrophon 135, einem gekoppelten Fahrzeugtransceiver 136 und/oder einer Head-Tracking- und/oder Augen-Tracking-Vorrichtung 139 beinhalten. Obwohl 1 nur ein einzelnes Fahrzeug 132 mit einer entsprechenden einzelnen Fahrzeugdatenverarbeitungsvorrichtung 133 und einer entsprechenden einzelnen Fahrzeugvideokamera 134 und einem Transceiver 136 veranschaulicht, kann das Fahrzeug 132 in anderen Ausführungsformen zusätzliche gleiche oder ähnliche Datenverarbeitungsvorrichtungen, Videokameras und/oder Transceiver beinhalten, und zusätzliche Fahrzeuge können mit entsprechenden zusätzlichen Sätzen von Datenverarbeitungsvorrichtungen, Videokameras und/oder Transceivern vorhanden sein.
Alle, das tragbare Funkgerät 104, die RSM-Videoerfassungsvorrichtung 106, der Laptop 114 und die Fahrzeugdatenverarbeitungsvorrichtung 132, können in der Lage sein, direkt drahtlos über eine oder mehrere drahtlose Direktmodusverbindung(en) 142 und/oder drahtlos über ein drahtloses Infrastruktur-Funkzugangsnetzwerk (RAN) 152 über die entsprechende(n) drahtlose(n) Verbindung(en) 140, 144 und über entsprechende Transceiverschaltungen zu kommunizieren.
Insbesondere das tragbare Funkgerät 104 kann jede mobile Datenverarbeitungsvorrichtung sein, die für die Kommunikation über Infrastruktur-RAN oder Direktmodus-Medien (beispielsweise Sprache, Audio, Video usw.) über einen drahtlosen Langstreckensender und/oder Transceiver verwendet wird, der eine Sender-Übertragungsreichweite in der Größenordnung von Meilen aufweist, beispielsweise 0,5 - 50 Meilen oder 3 - 20 Meilen (zum Beispiel im Vergleich zu einem Kurzstreckensender wie einem Bluetooth-, Zigbee- oder NFC-Sender) mit anderen mobilen Datenverarbeitungsvorrichtungen und/oder dem Infrastruktur-RAN 152. Der Langstreckensender kann einen Direktmodus-, einen konventionellen oder gebündelten Landmobilfunk (LMR) -Standard oder ein Protokoll wie zum Beispiel ETSI Digital Mobile Radio (DMR), einen Projekt-25 (P25) -Standard, definiert durch die Association of Public Safety Communications Officials International (APCO), ein Terrestrial Trunked Radio (TETRA) oder andere LMR-Funkprotokolle oder -Standards implementieren. In anderen Ausführungsformen kann der Langstreckensender ein Long-Term-Evolution- (LTE), LTE-Advance- oder 5G-Protokoll implementieren, einschließlich Multimedia Broadcast Multicast Services (MBMS) oder Single Site Point-to-Multipoint (SC-PTM), über das eine Open-Mobile-Alliance (OMA) -Push-to-Talk (PTT) -over-Cellular (OMA-PoC), eine Voice-over-IP (VoIP), ein LTE-Direct oder LTE-Device-to-Device oder eine PTT-over-IP (PolP) -Anwendung implementiert werden kann. In noch weiteren Ausführungsformen kann der Langstreckensender ein Wi-Fi-Protokoll implementieren, das möglicherweise einem IEEE 802.11 Standard (z.B. 802.11 a, 802.11b, 802.11g) oder einem WiMAX-Protokoll, das möglicherweise gemäß einem IEEE 802.16 Standard arbeitet, entspricht.
Im Beispiel aus 1 kann das tragbare Funkgerät 104 den Hub der Kommunikationsverbindungen für den Benutzer 102 bilden, über den andere Zusatzgeräte, wie beispielsweise ein biometrischer Sensor (beispielsweise das biometrische Sensorarmband 120), ein Aktivitätstracker, ein Waffenstatus-Sensor (beispielsweise das sensorgestützte Holster 118), ein Head-up-Display (beispielsweise die Smart-Brille 116), die RSM-Videoerfassungsvorrichtung 106 und/oder der Laptop 114, kommunikativ koppeln können.
Zur Kommunikation und zum Austausch von Video, Audio und anderen Medien und zur Kommunikation mit der RSM-Videoerfassungsvorrichtung 106, dem Laptop 114 und/oder der Smart-Brille 116 kann das tragbare Funkgerät 104 einen oder mehrere physische elektronische Ports (wie zum Beispiel einen USB-Port, einen Ethernet-Port, eine Audiobuchse usw.) zur direkten elektronischen Kopplung mit der RSM-Videoerfassungsvorrichtung 106, dem Laptop 114 und/oder der Smart-Brille 116 enthalten und/oder einen Kurzstreckensender (beispielsweise im Vergleich zum Langstreckensender wie zum Beispiel einem LMR- oder Breitbandsender) und/oder einen Transceiver zur drahtlosen Kopplung mit der RSM-Videoerfassungsvorrichtung 106, dem Laptop 114 und/oder der Smart-Brille 116 enthalten. Der Kurzstrecken-Sender kann ein Bluetooth-, Zigbee- oder NFC-Sender mit einer Sendereichweite von 0,01 - 100 Metern oder 0,1 - 10 Metern sein.
In weiteren Ausführungsformen können die RSM-Videoaufnahmevorrichtung 106, der Laptop 114 und/oder die Smart-Brille 116 ihre eigenen Langstreckentransceiver enthalten und können miteinander und/oder mit dem Infrastruktur-RAN 152 oder dem Fahrzeugtransceiver 136 direkt kommunizieren, ohne durch das tragbare Funkgerät 104 zu gelangen.
Insbesondere bietet die RSM-Videoerfassungsvorrichtung 106 Sprachfunktionalitätsmerkmale, die denen eines herkömmlichen RSM ähnlich sind, einschließlich eines oder mehrerer aus Wirken als ein entferntes Mikrofon, das näher am Mund des Benutzers 102 ist, Bereitstellen eines entfernten Lautsprechers, der die Wiedergabe von Audio näher am Ohr des Benutzers 102 ermöglicht, und Beinhalten eines PTT-Schalters oder einer anderen Art von PTT-Eingang. Die am entfernten Mikrofon aufgezeichnete Sprache und/oder das Audio kann dem tragbaren Funkgerät 104 zur Speicherung und/oder Analyse oder zur weiteren Übertragung an andere mobile Kommunikationsvorrichtungen oder das Infrastruktur-RAN 152 zur Verfügung gestellt werden oder kann direkt von der RSM-Videoerfassungsvorrichtung 106 an andere mobile Datenverarbeitungsvorrichtungen oder von dem Infrastruktur-RAN 152 übertragen werden. Die am entfernten Lautsprecher wiedergegebene Sprache und/oder das Audio kann vom tragbaren Funkgerät 104 oder direkt von einem oder mehreren anderen mobilen Datenverarbeitungsvorrichtungen oder dem Infrastruktur-RAN empfangen werden. Die RSM-Videoerfassungsvorrichtung 106 kann einen separaten physischen PTT-Schalter 108 beinhalten, der in Zusammenarbeit mit dem tragbaren Funkgerät 104 oder allein das tragbare Funkgerät 104 und/oder die RSM-Videoerfassungsvorrichtung 106 in einem reinen Monitormodus hält und die Vorrichtung(en) in einen reinen Sendemodus (für Halbduplexvorrichtungen) oder einen Sende- und Empfangsmodus (für Vollduplexvorrichtungen) bei Betätigung des PTT-Schalters 108 schaltet. Das tragbare Funkgerät 104 und/oder die RSM-Videoerfassungsvorrichtung 106 kann Teil einer Gruppenkommunikationsarchitektur sein, die es einer einzelnen mobilen Datenverarbeitungsvorrichtung ermöglicht, mit einem oder mehreren Gruppenmitgliedern (nicht dargestellt) zu kommunizieren, die zur selben Zeit mit einer bestimmten Gruppe von Geräten assoziiert sind.
Zusätzliche Funktionen können auch am RSM-Videoerfassungsgerät 106 bereitgestellt werden. So kann beispielsweise ein Display 110 zum Anzeigen von Bildern, Videos und/oder Texten für den Benutzer 102 oder eine andere Person vorgesehen werden. Das Anzeigedisplay 110 kann beispielsweise ein Flüssigkristallanzeigedisplay („liquid crystal display screen“) oder eine OLED-Anzeigedisplay („organic light emitting display screen“) sein. In einigen Ausführungsformen kann auch eine berührungsempfindliche Eingabeschnittstelle in das Anzeigedisplay 110 integriert werden, die es dem Benutzer 102 erlaubt, mit den auf dem Anzeigedisplay 110 bereitgestellten Inhalten zu interagieren. Ein weicher PTT-Eingang kann beispielsweise auch über eine solche Touch-Schnittstelle bereitgestellt werden.
Eine Videokamera 112 kann auch an der RSM-Videoerfassungsvorrichtung 106 vorgesehen sein, die die Fähigkeit integriert, Bilder und/oder Videos zu erfassen und die erfassten Bilddaten zu speichern (zur weiteren Analyse) oder die erfassten Bilddaten als Bild- oder Videostream an das tragbare Funkgerät 104 und/oder an andere mobile Datenverarbeitungsvorrichtungen oder direkt an das Infrastruktur-RAN 152 zu übertragen. Die Videokamera 112 und das entfernte RSM-Mikrofon können beispielsweise verwendet werden zum Erfassen von Audio und/oder Video eines mit dem Benutzer 102 assoziierten Sichtfeldes, zum Speichern der erfassten Bild- und/oder Audiodaten zur weiteren Analyse oder zum Übertragen der erfassten Bild- und/oder Audiodaten als Video- und/oder Audiostream an das tragbare Funkgerät 104 und/oder an andere mobile Datenverarbeitungsvorrichtungen oder direkt an das Infrastruktur-RAN zur weiteren Analyse. Das entfernte RSM-Mikrofon kann ein omnidirektionales oder unidirektionales Mikrofon oder ein Array von omnidirektionalen oder unidirektionalen Mikrofonen sein, die in der Lage sein können, eine Richtung zu identifizieren, aus der ein erfasster Ton kommt.
In einigen Ausführungsformen kann die RSM-Videoerfassungsvorrichtung 106 durch eine beschränktere, Körperkamera ersetzt werden, die die oben erwähnte Videokamera 112 und/oder das Mikrofon zum Erfassen von Audio und/oder Video beinhalten kann, aber auf eine oder mehrere der zuvor erwähnten Funktionen verzichten kann, die die Körperkamera in ein voll ausgestattetes RSM verwandeln, wie beispielsweise den separaten physischen PTT-Schalter 108 und das Anzeigedisplay 110, und die Funktionalität als entferntes Mikrofon für die Sprachkommunikation in Verbindung mit dem tragbaren Funkgerät 104.
Insbesondere kann der Laptop 114 jede drahtlose Datenverarbeitungsvorrichtung sein, die für Infrastruktur-RAN- oder Direktmodus-Medienkommunikation über einen drahtlosen Lang- oder Kurzstreckensender mit anderen mobilen Datenverarbeitungsvorrichtungen und/oder dem Infrastruktur-RAN 152 verwendet wird. Der Laptop 114 beinhaltet ein Anzeigedisplay zum Anzeigen einer Benutzerschnittstelle für ein Betriebssystem und eine oder mehrere Applikationen, die auf dem Betriebssystem ausgeführt werden, wie zu Beispiel eine breitbandige PTT-Kommunikationsapplikation, eine Webbrowserapplikation, eine Datenbankapplikation für Fahrzeughistorien, eine Workflow-Applikation, eine Formular- oder Berichts-Applikation, eine Datenbankapplikation für Vorstrafenregister, eine Datenbankapplikation für ausstehende Haftbefehle, eine Mapping- und/oder Navigationsapplikation, eine Datenbankapplikation für Gesundheitsinformationen oder andere Arten von Applikationen, die für ihren Betrieb eine Benutzerinteraktion erfordern können. Das Display des Laptops 114 kann beispielsweise ein LCD-Anzeigedisplay oder ein OLED-Anzeigedisplay sein. In einigen Ausführungsformen kann auch eine berührungsempfindliche Eingabeschnittstelle in das Anzeigedisplay integriert sein, die es dem Benutzer 102 erlaubt, mit den auf dem Anzeigedisplay bereitgestellten Inhalten zu interagieren. Ein weicher PTT-Eingang kann beispielsweise auch über eine solche Touch-Schnittstelle bereitgestellt werden.
Am Laptop 114 können ferner nach vorne und/oder hinten gerichtete Videokameras vorgesehen sein, die die Fähigkeit integrieren, Video und/oder Audio des Benutzers 102 und/oder ein Sichtfeld, das im Wesentlichen mit dem des Benutzers 102 übereinstimmt, und das erfasste Video und/oder Audio zur weiteren Analyse zu speichern und/oder anderweitig zu verarbeiten oder das aufgenommene Video und/oder Audio als Video- und/oder Audiostream an das tragbare Funkgerät 104, andere mobile Datenverarbeitungsvorrichtungen und/oder das Infrastruktur-RAN 152 zur weiteren Analyse zu übertragen.
Die Smart-Brille 116 kann eine digitale Bildgebungsvorrichtung, eine Datenverarbeitungsvorrichtung, eine Kurz- und/oder Langstrecken-Transceivervorrichtung und/oder eine Projektionsvorrichtung beinhalten. Die Smart-Brille 116 kann eine bidirektionale Verbindungskommunikation mit dem tragbaren Funkgerät 104 aufrechterhalten und eine permanente oder bedarfsabhängige Videoeingabe bieten, die über die digitale Bilderfassungsvorrichtung in eine Richtung des Blicks des Benutzers von 102 zeigt, und/oder eine persönliche Anzeige über die in die Smart-Brille 116 integrierte Projektionsvorrichtung bereitstellen, um seinem Benutzer Informationen wie Text, Bilder oder Videos anzuzeigen, die vom tragbaren Funkgerät 104 oder direkt von dem Infrastruktur-RAN 152 empfangen wurden. In einigen Ausführungsformen kann an der Smart-Brille 116 ein zusätzlicher Benutzerschnittstellenmechanismus, wie zum Beispiel eine Touchschnittstelle oder ein Gestenerkennungsmechanismus, vorgesehen werden, der es dem Benutzer 102 erlaubt, mit den auf der Smart-Brille 116 angezeigten oder in die Augen des Benutzers projizierten Anzeigeelementen zu interagieren oder den Betrieb der digitalen Bilderfassungsvorrichtung zu ändern, während in anderen Ausführungsformen eine Display- und Eingabeschnittstelle am tragbaren Funkgerät 104 vorgesehen werden kann, um, unter anderen Möglichkeiten, mit dem Inhalt der Smart-Brille 116 zu interagieren und den Betrieb der digitalen Bilderfassungsvorrichtung zu ändern.
Die Smart-Brille 116 kann eine Virtual-Reality-Schnittstelle bereitstellen, in der eine computersimulierte Realität elektronisch eine Umgebung repliziert, mit der der Benutzer 102 interagieren kann, kann eine Augmented-Reality-Schnittstelle bereitstellen, in der eine direkte oder indirekte Ansicht von realen Umgebungen, in denen sich der Benutzer gerade befindet, erweitert wird, das heißt, ergänzt wird durch zusätzliche computergenerierte sensorische Eingaben wie Ton, Video, Bilder, Grafiken, GPS-Daten oder andere Informationen, oder kann eine Mixed-Reality-Schnittstelle bereitstellen, in der elektronisch erzeugte Objekte in einer Weise in eine direkte oder indirekte Ansicht von realen Umgebungen eingefügt werden, so dass sie koexistieren und in Echtzeit mit der realen Umgebung und realen Objekten interagieren können.
Das sensorgestützte Holster 118 kann ein aktiver (mit Strom versorgter) oder passiver (nicht mit Strom versorgter) Sensor sein, der Zustandsinformationen betreffend eine Waffe oder ein anderes Element, das normalerweise innerhalb des sensorgestützten Holsters 118 des Benutzers 102 angeordnet ist, aufrechterhält und/oder bereitstellt. Das sensorgestützte Holster 118 kann eine Zustandsänderung (von Anwesenheit zur Abwesenheit) und/oder eine Aktion (Entfernung) bezüglich der Waffe erkennen, die normalerweise innerhalb des sensorgestützten Holsters 118 angeordnet ist. Die erkannte Zustandsänderung und/oder Aktion kann über seinen Kurzstrecken-Transceiver an das tragbare Funkgerät 104 gemeldet werden. In einigen Ausführungsformen kann das sensorgestützte Holster 18 auch erkennen, ob die Hand des Ersthelfers auf der Waffe ruht, auch wenn sie noch nicht aus dem Holster entfernt wurde, und diese Informationen dem tragbaren Funkgerät 104 zur Verfügung stellen. Es gibt auch andere Möglichkeiten.
Das biometrische Sensorarmband 120 kann eine elektronische Vorrichtung zum Verfolgen einer Aktivität des Benutzers 102 oder eines Gesundheitszustandes des Benutzers 102 sein und kann einen oder mehrere Bewegungssensoren (beispielsweise einen Beschleunigungssensor, ein Magnetometer und/oder ein Gyroskop) beinhalten, die dem tragbaren Funkgerät 104 periodisch oder intermittierend Angaben über die Orientierung, die Richtung, die Schritte, die Beschleunigung und/oder die Geschwindigkeit und Angaben über die Gesundheit, wie zum Beispiel eine erfasste Herzfrequenz und/oder eine erfasste Atemfrequenz und/oder eine erfasste Körpertemperatur des Benutzers 102, möglicherweise zusammen mit anderen Informationen, bereitstellen. In einigen Ausführungsformen kann das biometrische Sensorarmband 120 einen eigenen Langstreckentransceiver beinhalten und kann mit anderen Kommunikationsvorrichtungen und/oder mit dem Infrastruktur-RAN 152 oder dem Fahrzeugtransceiver 136 direkt kommunizieren, ohne durch das tragbare Funkgerät 104 zu gelangen.
Ein Beschleunigungssensor ist eine Vorrichtung, die die Beschleunigung misst. Ein- und mehrachsige Modelle stehen zur Verfügung, um Größe und Richtung der Beschleunigung als vektorielle Größe zu erfassen, und sie können zum Erfassen von Orientierung, Beschleunigung, Vibrationsschock und Fall verwendet werden. Ein Gyroskop ist ein Gerät zur Messung oder Aufrechterhaltung der Orientierung, basierend auf den Prinzipien der Drehimpulserhaltung. Ein Gyroskoptyp, ein mikroelektromechanisches System (MEMS)-basiertes Gyroskop, verwendet lithografisch konstruierte Versionen von einem oder mehreren aus einer Stimmgabel, einem schwingenden Rad und einem Resonanzfestkörper, um die Ausrichtung zu messen. Andere Arten von Gyroskopen könnten ebenfalls verwendet werden. Ein Magnetometer ist eine Vorrichtung zum Messen der Stärke und/oder Richtung des Magnetfeldes in der Nähe der Vorrichtung und kann verwendet werden, um eine Richtung zu bestimmen, in die eine Person oder Vorrichtung gerichtet ist.
Der Herzfrequenzsensor kann elektrische Kontakte mit der Haut verwenden, um ein Elektrokardiographie- (EKG) -Signal seines Trägers zu überwachen, oder er kann Infrarotlicht und eine bilderfassende Vorrichtung verwenden, um unter anderem eine Pulsfrequenz seines Trägers optisch zu erfassen.
Ein Atemfrequenzsensor kann in das Sensorarmband 120 selbst integriert sein oder separat angeordnet werden und mit dem Sensorarmband 120 über eine drahtlose oder drahtgebundene Kurzstreckenverbindung kommunizieren. Der Atemfrequenzsensor kann die Verwendung von differentiellen kapazitiven Schaltungen oder kapazitiven Transducern zur Messung der Brustbewegung und damit der Atemfrequenz beinhalten. In anderen Ausführungsformen kann ein Atemsensor eine Periodizität der Mund- und/oder Nasenausatemluft überwachen (beispielsweise unter Verwendung eines Feuchtesensors, eines Temperatursensors, eines Kapnometers oder eines Spirometers), um eine Atemfrequenz zu erfassen. Es gibt auch andere Möglichkeiten.
Ein Körpertemperaturfühler kann, unter anderen Möglichkeiten, einen elektronischen digitalen oder analogen Sensor, der eine Hauttemperatur misst, beispielsweise unter Verwendung eines Thermistors mit negativem Temperaturkoeffizienten (NTC) oder eines Widerstandstemperaturfühlers (RTD), ein Infrarot-Thermoscannermodul beinhalten und/oder einen einnehmbaren Temperatursensor, der eine intern gemessene Körpertemperatur über eine drahtlose Kurzstreckenverbindung überträgt, beinhalten.
Obwohl das biometrische Sensorarmband 120 in 1 als ein Armband dargestellt ist, das um das Handgelenk getragen wird, kann das biometrische Sensorarmband 120 in anderen Beispielen zusätzlich und/oder alternativ um einen anderen Körperteil getragen werden oder eine andere physische Form annehmen, einschließlich eines Ohrrings, eines Fingerrings, einer Halskette, eines Handschuhs, eines Gürtels oder einer anderen Art von tragbarem, einnehmbarem oder einführbarem Formfaktor.
Das tragbare Funkgerät 104, die RSM-Videoerfassungsvorrichtung 106, der Laptop 114, die Smart-Brille 116, das sensorgestützte Holster 118 und/oder das biometrische Sensorarmband 120 können ein persönliches Bereichsnetzwerk („personal area network“ (PAN)) über entsprechende Kurzstrecken-PAN-Transceiver bilden, die auf einem Bluetooth-, Zigbee- oder einem anderen Kurzstrecken-Funkprotokoll mit einer Übertragungsreichweite von Metern, Dutzenden von Metern oder Hunderten von Metern basieren können.
Das tragbare Funkgerät 104 und/oder die RSM-Videoerfassungsvorrichtung 106 (oder, was das betrifft, jede andere elektronische Vorrichtung in 1) kann jeweils eine Standortbestimmungsvorrichtung beinhalten, die in dem tragbaren Funkgerät 104 und/oder der RSM 106 und/oder den entsprechenden Empfängern, Sendern oder Transceivern des tragbaren Funkgeräts 104 und des RSM 106 zum Bestimmen eines Standorts des tragbaren Funkgeräts 104 und des RSM 106 integriert ist oder separat, aber kommunikativ gekoppelt, angeordnet ist. Die Standortbestimmungsvorrichtung kann beispielsweise ein GPS-Empfänger („global positioning system“) oder eine drahtlose Triangulationslogik unter Verwendung eines drahtlosen Empfängers oder Transceivers und einer Vielzahl von drahtlosen Signalen sein, die am drahtlosen Empfänger oder Transceiver, unter anderen Möglichkeiten, von verschiedenen Orten empfangen werden. Die Positionsbestimmungsvorrichtung kann auch einen Orientierungssensor zum Bestimmen einer Richtung beinhalten, der die Vorrichtung zugewandt ist. Jeder Orientierungssensor kann ein Gyroskop und/oder ein Magnetometer beinhalten. Andere Arten von Orientierungssensoren können ebenfalls verwendet werden. Der Standort kann dann lokal gespeichert oder über den Sender oder Transceiver an andere Datenverarbeitungsvorrichtungen übertragen werden.
Das Fahrzeug 132 kann die Fahrzeugdatenverarbeitungsvorrichtung 133, die Fahrzeugvideokamera 134 und/oder das Mikrofon 135, den Fahrzeugtransceiver 136 und/oder die Kopf- und/oder Augen-Tracking-Vorrichtung 139 beinhalten, die alle über ein drahtgebundenes und/oder drahtloses Fahrzeugbereichsnetzwerk (VAN) miteinander gekoppelt werden können, möglicherweise zusammen mit anderen Sensoren, die physisch oder kommunikativ mit dem Fahrzeug 132 gekoppelt sind. Der Fahrzeugtransceiver 336 kann einen Langstreckentransceiver zur direkten drahtlosen Kommunikation mit mobilen Datenverarbeitungsvorrichtungen, wie zum Beispiel dem tragbaren Funkgerät 104, dem RSM 106 und dem Laptop 114, über eine drahtlose Verbindung(en) 142 und/oder zur drahtlosen Kommunikation mit dem RAN 152 über eine drahtlose Verbindung(en) 144 beinhalten. Der Fahrzeugtransceiver 136 kann ferner einen drahtlosen oder drahtgebundenen Kurzstreckentransceiver zur kommunikativen Kopplung zwischen der Fahrzeugdatenverarbeitungsvorrichtung 133 und/oder der Fahrzeugvideokamera 134 im VAN beinhalten. Die Fahrzeugdatenverarbeitungsvorrichtung 133 kann in einigen Ausführungsformen den Fahrzeugtransceiver 136 und/oder die in ihr integrierte Fahrzeugvideokamera 134 beinhalten und kann zum Speichern und/oder Verarbeiten von Video und/oder Audio, das von der Videokamera 134 erzeugt wurde, betrieben werden und/oder das erfasste Video und/oder Audio als Video- und/oder Audiostream an das tragbare Funkgerät 104, andere mobile Datenverarbeitungsvorrichtungen und/oder das Infrastruktur-RAN 152 zur weiteren Analyse übertragen. Das omnidirektionale oder unidirektionale Mikrofon 135, oder ein Array davon, kann in die Videokamera 134 und/oder an die Fahrzeugdatenverarbeitungsvorrichtung 133 integriert sein (oder zusätzlich oder alternativ an einem separaten Standort des Fahrzeugs 132 bereitgestellt sein) und mit der Fahrzeugdatenverarbeitungsvorrichtung 133 und/oder dem Fahrzeugtransceiver 136 kommunikativ gekoppelt werden, um Audio zu erfassen und das Audio in gleicher oder ähnlicher Weise wie oben bezüglich des RSM 106 beschrieben zu speichern, zu verarbeiten und/oder zu übertragen.
Das Fahrzeug 132 kann ein fahrergesteuertes Fahrzeug sein oder ein selbstfahrendes Fahrzeug sein, das unter der Kontrolle der Fahrzeugdatenverarbeitungsvorrichtung 133 betrieben werden kann, möglicherweise in Zusammenarbeit mit der Videokamera 134 (die eine Kamera für sichtbares Licht, eine Infrarotkamera, eine TOF („time of flight“) -Tiefenkamera und/oder eine Lichterfassungs- und Entfernungsvorrichtung (LiDAR) beinhalten kann). Befehlsinformationen und/oder Statusinformationen, wie zum Beispiel Standort und Geschwindigkeit, können mit dem selbstfahrenden Fahrzeug über das VAN und/oder das PAN ausgetauscht werden (wenn das PAN in Reichweite des VANs ist oder über die Infrastruktur-RAN-Verbindung des VANs).
Das Fahrzeug 132 und/oder der Transceiver 136 können, ähnlich dem tragbaren Funkgerät 104 und/oder dessen entsprechenden Empfängern, Sendern oder Transceivern, eine Standort- (und/oder eine Ortientierungs-) Bestimmungsvorrichtung beinhalten, die in die Fahrzeugdatenverarbeitungsvorrichtung 133 und/oder den Transceiver 136 integriert ist oder separat angeordnet ist, um einen Standort (und/oder eine Orientierung) des Fahrzeugs 132 zu bestimmen (und zu speichern und/oder zu übertragen).
In einigen Ausführungsformen kann anstelle eines Fahrzeugs 132 eine land-, luft- oder wassergestützte Drohne mit gleichen oder ähnlichen Audio- und/oder Video- und Kommunikationsfähigkeiten und gleichen oder ähnlichen Selbstnavigationsfähigkeiten wie vorstehend beschrieben abgesetzt („disposed“) werden, und die ebenfalls mit dem PAN des Benutzers 102 und/oder mit dem Infrastruktur-RAN 152 kommunizieren kann, um den Benutzer 102 im Feld zu unterstützen.
Das VAN kann sich kommunikativ mit dem oben offenbarten PAN koppeln, wenn das VAN und das PAN in drahtlose Übertragungsreichweite zueinander kommen, vielleicht nachdem eine Authentifizierung zwischen ihnen stattfindet, und das VAN oder das PAN können dem jeweils anderen Infrastrukturkommunikation bereitstellen und je nach Situation und Art der Geräte im VAN und/oder dem PAN Interoperabilität und Kommunikationsverbindungen zwischen Vorrichtungen (wie zum Beispiel Videokameras) und Sensoren innerhalb des VAN und des PAN herstellen.
Obwohl das RSM 106, der Laptop 114, die Smart-Brille 116 und das Fahrzeug 132 in 1 als beispielhafte Videokameras und/oder Mikrofone bereitstellend zur Verwendung beim Erfassen von Audio- und/oder Videoströmen dargestellt sind, könnten auch andere Arten von Kameras und/oder Mikrofonen verwendet werden, einschließlich, ohne darauf beschränkt zu sein, feste oder schwenkbare Videokameras, die an Laternenmasten befestigt sind, Videokameras von Geldautomaten (ATM), andere Arten von Körperkameras, wie zum Beispiel am Kopf getragene Kameras, andere Arten von Fahrzeugkameras, wie zum Beispiel am Dach befestigte Kameras, oder andere Arten von Audio- und Videoerfassungsvorrichtungen, die über eine drahtgebundene oder drahtlose Netzwerkschnittstelle zugänglich sind, die der hierin offenbarten gleich oder ähnlich ist.
Das Infrastruktur-RAN 152 ist ein Funkzugangsnetzwerk, das das Einrichten von Funkverbindungen innerhalb des Netzwerks zwischen einer Vielzahl von Benutzerendgeräten ermöglicht. Solche Benutzerendgeräte können mobil sein und als „mobile Stationen“ oder „mobile Vorrichtungen“ bezeichnet werden und können unter anderem eine oder mehrere der in 1 dargestellten elektronischen Datenverarbeitungsvorrichtungen beinhalten. Mindestens ein weiteres Endgerät, verwendet beispielsweise in Verbindung mit mobilen Vorrichtungen, kann ein feststehendes Endgerät sein, beispielsweise eine Basisstation, ein eNodeB, ein Repeater und/oder ein Access Point. Ein solches RAN beinhaltet typischerweise eine Systeminfrastruktur, die im Allgemeinen ein Netzwerk aus verschiedenen festen Endgeräten beinhaltet, die in direkter Funkkommunikation mit den mobilen Vorrichtungen stehen. Jedes der im RAN betriebenen festen Endgeräte kann einen oder mehrere Transceiver haben, die beispielsweise mobile Vorrichtungen in einer bestimmten Region oder einem bestimmten Gebiet, bekannt als „Zelle“ oder „Ort“ („site“), über eine Funkfrequenzkommunikation bedienen können. Die mobilen Vorrichtungen, die in direkter Verbindung mit einem bestimmten festen Endgerät stehen, gelten als von dem festen Endgerät bedient. In einem Beispiel, werden alle Funkkommunikationen zu und von jeder mobilen Vorrichtung innerhalb des RANs über entsprechende feststehende bedienende Terminals getätigt. Orte benachbarter feststehender Endgeräte können versetzt zueinander sein und entsprechende nicht überlappende oder teilweise oder vollständig überlappende Funkabdeckungsbereiche bereitstellen.
Das Infrastruktur-RAN 152 kann gemäß einem Industriestandard für drahtlosen Zugang arbeiten, wie beispielsweise einer LTE-, einer LTE-Advanced- oder einer 5G-Technologie, über die eine OMA-PoC-, eine VoIP-, eine LTE-Direkt- oder eine LTE-Gerätzu-Gerät- oder eine PolP-Applikation implementiert werden kann. Zusätzlich oder alternativ kann das Infrastruktur-RAN 152 eine WLAN-Technologie wie zum Beispiel Wi-Fi, das möglicherweise nach einem IEEE 802.11 Standard (z.B. 802.11 a, 802.11b, 802.11g) arbeitet, oder ein WiMAX, das möglicherweise nach einem IEEE 802.16 Standard arbeitet, implementieren.
Das Infrastruktur-RAN 152 kann zusätzlich oder alternativ gemäß einem LMR-Wireless-Access-Technology-Industriestandard betrieben werden, wie beispielsweise dem durch die APCO definierten P25-Standard, dem durch die ETSI definierten TETRA-Standard, dem auch durch die ETSI definierten dPMR-Standard oder dem auch durch die ETSI definierten DMR-Standard. Da diese Systeme im Allgemeinen einen geringeren Durchsatz bieten als die Breitbandsysteme, werden sie manchmal als schmalbandige RANs bezeichnet.
Die Kommunikation gemäß einem oder mehreren dieser Protokolle oder Standards oder anderer Protokolle oder Standards kann über physische Kanäle in Übereinstimmung mit einem oder mehreren der folgenden Verfahren erfolgen: TDMA (Time Division Multiple Access), FDMA (Frequency Divisional Multiple Access), OFDMA (Orthogonal Frequency Division Multiplexing Access) oder CDMA (Code Division Multiple Access).
Insbesondere OMA-PoC als ein Beispiel für ein breitbandiges drahtloses Infrastruktursystem, ermöglicht vertraute PTT- und „Instant on“-Features traditioneller mobiler Halbduplexvorrichtungen, verwendet aber mobile Vorrichtungen, die über moderne breitbandige Kommunikationsnetzwerke betrieben werden. Durch Verwendung von OMA-PoC können drahtlose mobile Vorrichtungen, beispielsweise Mobiltelefone und Notebooks als mobile PTT-Halbduplexvorrichtungen zum Senden und Empfangen eingesetzt werden. Andere Arten von PTT-Modellen und Multimedia-Call-Modellen (MMCMs) sind ebenfalls verfügbar.
Eine Ebenensteuerung („floor control“) in einer OMA-PoC-Sitzung wird im Allgemeinen von einem PTT-Server verwaltet, der die Kommunikation zwischen zwei oder mehreren drahtlosen mobilen Vorrichtungen steuert. Wenn ein Benutzer eines der mobilen Vorrichtungen eine PTT-Taste drückt, wird eine Anfrage für eine Sprechberechtigung in der OMA-PoC-Sitzung von der mobilen Vorrichtung des Benutzers an den PTT-Server übertragen, beispielsweise unter Verwendung einer RTP-Nachricht („real-time transport protocol message“). Wenn derzeit keine anderen Benutzer in der PoC-Sitzung sprechen, wird eine Akzeptanzmeldung an die mobile Vorrichtung des Benutzers zurückgesendet und der Benutzer kann dann in ein Mikrofon der Vorrichtung sprechen. Unter Verwendung von standardisierten Kompressions-/Dekompressionstechniken (Codec) wird die Stimme des Benutzers digitalisiert und unter Verwendung diskreter Audiodaten-Pakete (die beispielsweise zusammen im Laufe der Zeit einen Audio-Datenstream bilden), wie beispielsweise nach RTP und Internetprotokollen (IP), an den PTT-Server übertragen. Der PTT-Server überträgt dann die Audio-Datenpakete an andere Benutzer der PoC-Sitzung (beispielsweise an andere mobile Vorrichtungen in der Gruppe der mobilen Vorrichtungen oder der Gesprächsgruppe, denen der Benutzer zugeordnet ist), wobei er beispielsweise eine Unicast- und/oder eine Punkt-zu-Mehrpunkt- und/oder eine Broadcast-Kommunikationstechnik verwendet.
Schmalbandige drahtlose LMR-Infrastruktursysteme hingegen arbeiten andererseits entweder in einer herkömmlichen oder in einer gebündelten („trunked“) Konfiguration. In beiden Konfigurationen ist eine Vielzahl von mobilen Vorrichtungen in separate Gruppen von mobilen Vorrichtungen unterteilt.
In einem herkömmlichen schmalbandigen Funksystem wird jede mobile Vorrichtung in einer Gruppe für einen bestimmten Funkkanal (Frequenz oder Frequenz & Zeitschlitz) für Kommunikationen ausgewählt, die mit der Gruppe dieser mobilen Vorrichtung assoziiert sind. Somit wird jede Gruppe von einem Kanal bedient, und mehrere Gruppen können sich die gleiche einzelne Frequenz teilen (in diesem Fall können in einigen Ausführungsformen Gruppenkennungen („group IDs“) in den Gruppendaten vorhanden sein, um zwischen Gruppen zu unterscheiden, die die gleiche geteilte Frequenz nutzen).
Im Gegensatz dazu nutzen ein Bündelfunksystem und seine mobilen Vorrichtungen einen Pool von Verkehrskanälen für eine praktisch unbegrenzte Anzahl von Gruppen von mobilen Vorrichtungen (zum Beispiel Gesprächsgruppen). Somit werden alle Gruppen von allen Kanälen bedient. Das Bündelfunksystem nutzt die Wahrscheinlichkeit, dass nicht alle Gruppen gleichzeitig einen Verkehrskanal für die Kommunikation benötigen. Wenn ein Mitglied einer Gruppe einen Anruf auf einem Kontroll- oder Ruhekanal anfordert, auf dem alle mobilen Vorrichtungen an einem Ort im Ruhezustand auf neue Rufbenachrichtigungen warten, weist ein Rufcontroller in einer Ausführungsform einen separaten Verkehrskanal für den angefragten Gruppenruf zu, und alle Gruppenmitglieder wechseln vom zugewiesenen Kontroll- oder Ruhekanal zum zugewiesenen Verkehrskanal für den Gruppenruf. In einer weiteren Ausführungsform kann der Rufcontroller, wenn ein Mitglied einer Gruppe einen Anruf auf einem Steuer- oder Ruhekanal anfordert, den Steuer- oder Ruhekanal, auf dem die mobilen Vorrichtungen im Ruhezustand waren, in einen Verkehrskanal für den Ruf umwandeln und alle mobilen Vorrichtungen, die nicht an dem neuen Ruf teilnehmen, anweisen, zu einem neu zugeordneten Steuer- oder Ruhekanal zu wechseln, der aus dem Pool der verfügbaren Kanäle ausgewählt wird. Bei einer gegebenen Anzahl von Kanälen kann in einem Bündelfunksystem eine wesentlich größere Anzahl von Gruppen untergebracht werden als in einem herkömmlichen Funksystem.
Gruppenrufe können zwischen drahtlosen und/oder drahtgebundenen Teilnehmern in Übereinstimmung mit einem Schmalband-, einem Breitbandprotokoll oder -standard getätigt werden. Gruppenmitglieder für Gruppenrufe können statisch oder dynamisch definiert werden. Das heißt, in einem ersten Beispiel kann ein Benutzer oder Administrator, der im Auftrag des Benutzers arbeitet, dem Vermittlungs- und/oder Funknetzwerk (beispielsweise bei einem Rufcontroller, einem PTT-Server, einem Zonencontroller oder einer mobilen Verwaltungseinheit (MME), einem Basisstationscontroller (BSC), einer mobilen Vermittlungszentrale (MSC), einem Ortscontroller, einem Push-to-Talk-Controller oder einer anderen Netzwerkvorrichtung) eine Liste der Teilnehmer einer Gruppe zum Zeitpunkt des Rufs oder vor dem Ruf angeben. Die Gruppenmitglieder (beispielsweise die mobilen Vorrichtungen) können im Netzwerk vom Benutzer oder einem Agenten bereitgestellt werden und dann beispielsweise eine Form von Gruppenidentität oder -kennung bereitstellen. Zu einem späteren Zeitpunkt kann ein aus einer Gruppe stammender Benutzer dann eine zu übertragende Signalisierung verursachen, die angibt, dass er oder sie eine Kommunikationssitzung (beispielsweise einen Gruppenruf) mit jedem der vordefinierten Teilnehmer in der definierten Gruppe etablieren möchte. In einem weiteren Beispiel können mobile Vorrichtungen sich dynamisch einer Gruppe anschließen (und sich auch von der Gruppe trennen), vielleicht basierend auf Benutzereingaben, und das Vermittlungs- und/oder Funknetzwerk kann eine Gruppenzugehörigkeit verfolgen und neue Gruppenrufe entsprechend der aktuellen Gruppenzugehörigkeit routen.
In einigen Fällen können Breitband- und Schmalbandsysteme über ein Middleware-System angebunden werden, das zwischen einem schmalbandigen PTT-Standardprotokoll (wie P25) und einem breitbandigen PTT-Standardprotokoll (wie OMA-PoC) übersetzt. Diese zwischenliegende Middleware kann einen Middleware-Server zur Durchführung der Übersetzungen beinhalten und kann in der Cloud, an einem speziellen Standort vor Ort für einen Kunden, der beide Technologien nutzen möchte, oder bei einem öffentlichen Träger, der eine oder beide Technologien unterstützt, angeordnet werden. So kann beispielsweise und bezugnehmend auf 1 ein solcher Middleware-Server unter anderem in dem Infrastruktur-RAN 152 bei dem Controller 156 oder bei einem separaten Cloud-Computing-Cluster 162 angeordnet werden, der über das Internetprotokoll (IP) Netzwerk 160 kommunikativ mit dem Controller 156 gekoppelt ist.
Das Infrastruktur-RAN 152 ist in 1 als Abdeckung für das tragbare Funkgerät 104, die RSM-Videoerfassungsvorrichtung 106, den Laptop 114, die Smart-Brille 116 und /oder den Fahrzeugtransceiver 136 über ein einziges feststehendes Terminal 154 bereitstehend dargestellt, das mit einem einzigen Controller 156 gekoppelt ist (beispielsweise einem Funkcontroller, einem Rufcontroller, einem PTT-Server, einem Zonencontroller, einem MME, einem BSC, einem MSC, einem Standortcontroller, einem Push-to-Talk-Controller oder anderen Netzwerkvorrichtungen) und einschließlich einer von einem Dispatcher betriebenen Dispatchkonsole 158. In anderen Ausführungsformen können zusätzliche feststehende Terminals und zusätzliche Controller verteilt werden, um eine größere geografische Reichweite und/oder eine größere Anzahl mobiler Geräte zu unterstützen.
Der in 1 dargestellte Controller 156 oder eine andere elektronische Backend-Datenverarbeitungsvorrichtung, die vor Ort oder in dem über das IP-Netzwerk 160 zugänglichen Cloud-Compute-Cluster 162 (wie beispielsweise das Internet) vorhanden ist, kann in Übereinstimmung mit dem Rest dieser Offenbarung zusätzlich oder alternativ als elektronischer Backend-Digitaler-Assistent, als elektronischer Backend-Audio- und/oder Videoverarbeitungs-Computer und/oder als entfernte cloudbasierte Speichervorrichtung arbeiten.
Das IP-Netzwerk 160 kann einen oder mehrere Router, Switches, LANs, WLANs, WANs, Access-Points oder andere Netzwerkinfrastruktur umfassen, einschließlich, aber nicht beschränkt auf, das öffentliche Internet. Der Cloud-Compute-Cluster 162 kann eine Vielzahl von Datenverarbeitungsvorrichtungen, wie den in 2 dargestellten, umfassen, von denen eine oder mehrere keinen, alle Teile oder einen Teil eines elektronischen digitalen Assistentendienstes sequentiell oder parallel über die eine oder die mehreren Datenverarbeitungsvorrichtungen ausführen können. Die Vielzahl der Datenverarbeitungsvorrichtungen, die den Cloud-Compute-Cluster 162 umfassen, können geografisch beieinander liegen oder können um Inches, Meter oder Meilen voneinander getrennt sein und über elektronische und/oder optische Verbindungen miteinander verbunden werden. Obwohl in 1 nicht dargestellt, können ein oder mehrere Proxy-Server oder Lastausgleichsserver steuern, welche der Datenverarbeitungsvorrichtungen einen Teil oder die gesamte Funktion des elektronischen digitalen Assistenten ausführen.
Das System 100 kann zusätzlich ein physisches Straßenschild 170, wie beispielsweise ein Kreuzungsschild, beinhalten, das alphanumerischen Text und/oder Bilder enthält, die beispielsweise zwei Querstraßen identifizieren können, die sich an oder in der Nähe des Standorts des Straßenschildes 170 treffen. In anderen Ausführungsformen können auch verschiedene Arten von Schildern, einschließlich physischer oder dynamisch aktualisierbarer elektronischer Schilder, die auf Baustelleninformationen („construction updates“), Umleitungen, Ereignisse, Verkehrsinformationen („traffic updates“), Werbung, Logos, Gebäudeadressen oder andere Informationen angeben, implementiert werden. Das Nummernschild 172 kann ein physisches oder elektronisches Display sein, das an dem Fahrzeug 132 angebracht ist und eine eindeutige Kennung zur eindeutigen Identifizierung (beispielsweise innerhalb eines lokalen Bereichs oder einer Region, eines Bezirks, einer Stadt, eines Staates oder eines Landes) des Fahrzeugs 132 beinhaltet und mit anderen Informationen wie zum Beispiel Eigentümer, Fahrer, Angestellter, Zulassungsinhaber, Unternehmen, Versicherungsinformationen, Informationen über Verkehrsverstöße, Marke und/oder Modell des Fahrzeugs oder anderen mit dem Fahrzeug assoziierte Informationen verknüpft sein kann. Das Straßenschild 170 und das Nummernschild 172 sind nur Beispiele für alphanumerische Elemente auf grafischen Objekten, die im Folgenden in Bezug auf das Verfahren 300 aus 3 näher beschrieben werden.
Schließlich kann, obwohl 1 ein Kommunikationssystem 100 im Allgemeinen als Kommunikationssystem der öffentlichen Sicherheit beschreibt, das einen Benutzer 102, der im Allgemeinen als Polizeibeamter bezeichnet wird, und ein Fahrzeug 132, das im Allgemeinen als Polizeiwagen bezeichnet wird, beinhaltet, das Kommunikationssystem 100 in anderen Ausführungsformen zusätzlich oder alternativ ein Einzelhandelskommunikationssystem sein, das einen Benutzer 102, der ein Mitarbeiter eines Einzelhändlers sein kann, und ein Fahrzeug 132, das ein Fahrzeug sein kann, das vom Benutzer 102 zur Förderung der Handelsaufgaben des Mitarbeiters verwendet werden kann (beispielsweise ein Shuttle oder ein autarker Roller („self-balancing scooter“)), beinhaltet. In anderen Ausführungsformen kann das Kommunikationssystem 100 zusätzlich oder alternativ ein Lagerhauskommunikationssystem sein, das einen Benutzer 102, der ein Mitarbeiter eines Lagerhauses sein kann, und ein Fahrzeug 132, das ein Fahrzeug sein kann, das vom Benutzer 102 zur Förderung der Lageraufgaben des Mitarbeiters (beispielsweise ein Gabelstapler) verwendet werden kann, beinhaltet.
In noch weiteren Ausführungsformen kann das Kommunikationssystem 100 zusätzlich oder alternativ ein privates Sicherheitskommunikationssystem sein, das einen Benutzer 102, der Mitarbeiter eines privaten Sicherheitsunternehmens sein kann, und ein Fahrzeug 132, das ein Fahrzeug sein kann, das vom Benutzer 102 zur Förderung der Aufgaben des privaten Sicherheitsdienstangestellten verwendet werden kann (beispielsweise ein privates Sicherheitsdienst-Fahrzeug oder -Motorrad), beinhaltet. In noch weiteren Ausführungsformen kann das Kommunikationssystem 100 zusätzlich oder alternativ ein medizinisches Kommunikationssystem sein, das einen Benutzer 102, der Arzt oder Krankenschwester eines Krankenhauses sein kann, und ein Fahrzeug 132, das ein Fahrzeug sein kann, das vom Benutzer 102 zur Förderung der Aufgaben des Arztes oder der Krankenschwester verwendet werden kann (beispielsweise eine medizinische Trage oder ein Krankenwagen), beinhaltet. In einer letzten beispielhaften Ausführungsform kann das Kommunikationssystem 100 zusätzlich oder alternativ ein Kommunikationssystem für schwere Maschinen sein, das einen Benutzer 102, der ein Minenarbeiter, Bohrarbeiter oder Extraktor in einem Bergwerk, Ölfeld, Edelmetall- oder Edelsteinfeld sein kann, und ein Fahrzeug 132, das ein Fahrzeug zur Verwendung durch den Benutzer 102 zur Förderung der Aufgaben des Minenarbeiters, des Bohrarbeiters oder des Extraktors sein kann (beispielsweise ein Bagger, eine Planierraupe, ein Kran, ein Frontlader). Es gibt jedoch auch andere Möglichkeiten.
Vorrichtungsaufbau
Unter Bezugnahme auf 2 veranschaulicht ein schematisches Diagramm eine elektronische Datenverarbeitungsvorrichtung 200 zum Betreiben eines elektronischen digitalen Assistenten gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Die elektronische Datenverarbeitungsvorrichtung 200 kann beispielsweise im tragbaren Funkgerät 104, der RSM-Videoerfassungsvorrichtung 106, dem Laptop 114, der Smart-Brille 116, dem elektronischen Fahrzeugprozessor 133, dem Controller 156 oder einer anderen elektronischen Datenverarbeitungsvorrichtung, die nicht in 1 dargestellt ist, einschließlich des vorstehend beschriebenen Cloud-Compute-Clusters, verkörpert sein und/oder kann eine verteilte Datenverarbeitungsvorrichtung über zwei oder mehr der vorgenannten (oder ein Vielfaches derselben Art von einem der vorgenannten) sein und über eine drahtgebundene und/oder drahtlose Kommunikationsverbindung(en) verbunden sein. Wie in 2 dargestellt, beinhaltet die Datenverarbeitungsvorrichtung 200 eine Kommunikationseinheit 202, die mit einem gemeinsamen Daten- und Adressbus 217 einer Verarbeitungseinheit 203 gekoppelt ist. Die Datenverarbeitungsvorrichtung 200 kann auch eine Eingabeeinheit 206 (beispielsweise eine Tastatur, eine Zeigevorrichtung, eine berührungsempfindliche Oberfläche usw.) und einen elektronischen Anzeigedisplay 205 beinhalten, die jeweils mit der Verarbeitungseinheit 203 kommunikativ verbunden sind.
Ein Mikrofon 220 kann vorhanden sein, um Audio von einem Benutzer und/oder andere Umgebungs- oder Hintergrundaudiosignale zu erfassen, die von der Verarbeitungseinheit 203 gemäß dem Rest dieser Offenbarung weiterverarbeitet werden und/oder die als Sprach- oder Audio-Datenstream oder als akustische Umgebungsangaben von der Kommunikationseinheit 202 an andere tragbare Funkgeräte und/oder andere elektronische Datenverarbeitungsvorrichtungen übertragen werden. Eine bilderfassende Vorrichtung 221 kann Video (Standbilder oder bewegte Bilder) eines Bereichs in einem Sichtfeld der Datenverarbeitungsvorrichtung 200 (und vielleicht auch übereinstimmend oder enthaltend ein übereinstimmendes Sichtfeld eines damit assoziierten Benutzers) zur Weiterverarbeitung durch die Verarbeitungseinheit 203 und/oder zur Weiterleitung durch die Kommunikationseinheit 202 bereitstellen. Ein Kommunikationslautsprecher 222 kann zur Wiedergabe von Audio vorhanden sein, das aus Sprach- oder Audioströmen von Rufen dekodiert wird, die über die Kommunikationseinheit 202 von anderen tragbaren Funkgeräten empfangen wurden, von digitalem Audio, das auf der Datenverarbeitungsvorrichtung 200 gespeichert ist, von anderen Ad-hoc- oder Direktmodus-Vorrichtungen und/oder von einer Infrastruktur-RAN-Vorrichtung oder zur Wiedergabe von Alarmtönen oder anderen Arten von zuvor aufgezeichnetem Audio.
Die Verarbeitungseinheit 203 kann einen mit dem gemeinsamen Daten- und Adressbus 217 gekoppelten Code-ROM (Read Only Memory) 212 zum Speichern von Daten für die Initialisierung von Systemkomponenten beinhalten. Die Verarbeitungseinheit 203 kann ferner einen Mikroprozessor 213 beinhalten, der über den gemeinsamen Daten- und Adressbus 217 mit einem Random-Access-Memory (RAM) 204 und einem statischen Speicher 216 gekoppelt ist.
Die Kommunikationseinheit 202 kann eine oder mehrere drahtgebundene und/oder drahtlose Ein-/Ausgabe- (I/O)-Schnittstellen 209 beinhalten, die eingerichtet werden können, um mit anderen Vorrichtungen zu kommunizieren, wie beispielsweise einem tragbaren Funkgerät, einem Laptop, einem drahtlosen RAN und/oder einem Fahrzeugtransceiver.
So kann beispielsweise die Kommunikationseinheit 202 einen oder mehrere drahtlose Transceiver 208 beinhalten, wie zum Beispiel einen DMR-Transceiver, einen P25-Transceiver, einen Bluetooth-Transceiver, einen Wi-Fi-Transceiver, der möglicherweise gemäß einem IEEE 802.11 Standard arbeitet (beispielsweise 802.11a, 802.11b, 802.11 g), einen LTE-Transceiver, einen WiMAX-Transceiver, der möglicherweise gemäß einem IE-EE802.16 Standard arbeitet, und/oder andere ähnliche Arten von drahtlosen Transceivern, die eingerichtet werden können, um über ein drahtloses Funknetzwerk zu kommunizieren.
Die Kommunikationseinheit 202 kann zusätzlich oder alternativ einen oder mehrere drahtgebundene Transceiver 208 beinhalten, beispielsweise einen Ethernet-Transceiver, einen USB-Transceiver oder einen ähnlichen Transceiver, der eingerichtet werden kann, um über eine verdrillte Zweidrahtleitung, ein Koaxialkabel, eine Glasfaserverbindung oder eine ähnliche physikalische Verbindung zu einem drahtgebundenen Netzwerk zu kommunizieren. Der Transceiver 208 ist auch mit einem kombinierten Modulator/Demodulator 210 gekoppelt.
Der Mikroprozessor 213 hat Ports zum Koppeln mit der Eingabeeinheit 206 und der Mikrofoneinheit 220 und dem Anzeigedisplay 205, der bilderfassenden Vorrichtung 221 und dem Lautsprecher 222. Der statische Speicher 216 kann den Betriebscode 225 für den Mikroprozessor 213 speichern, der, wenn der Betriebscode 225 ausgeführt wird, einen oder mehrere der in 3 und dem begleitenden Text beschriebenen Schritte der Datenverarbeitungsvorrichtung ausführt. Der statische Speicher 216 kann auch dauerhaft oder vorübergehend gecachte Bilder und/oder Videoframes (vollständig oder teilweise) von erfassten Objekten und/oder übersetzte Identifikationen und/oder Inhalte von Objekten, die in erfassten Bildern oder Videoframes erkannt werden, einschließlich, ohne darauf beschränkt zu sein, extrahierten alphanumerischen Text speichern, gemäß der folgenden Beschreibung.
Der statische Speicher 216 kann beispielsweise ein Festplattenlaufwerk (HDD), ein optisches Laufwerk wie ein CD-Laufwerk oder ein DVD-Laufwerk, ein Solid State Drive (SSD), ein Bandlaufwerk, ein Flash-Speicherlaufwerk oder ein Bandlaufwerk umfassen, um nur einige zu nennen.
Verfahren zur Erfassung der akustischen Umgebung eines Benutzers und substantielles Variieren eines Inhalts seiner akustischen Ausgabe an den Benutzer als eine Funktion der erfassten akustischen Umgebung.
Nun zurück zu 3, die ein Flussdiagramm eines Verfahrens 300 für eine elektronische Datenverarbeitungsvorrichtung veranschaulicht, die als elektronischer digitaler Assistent arbeitet, um das Video in Bezug auf eine bestimmte Benutzerwahrnehmung dieses Videos rechnerisch zu verarbeiten und die Anfrageantwort eines elektronischen digitalen Assistenten auf eine nachfolgende Anfrage des Benutzers entsprechend anzupassen. Während in 3 zu exemplarischen Zwecken eine bestimmte Reihenfolge von Verarbeitungsschritten, Nachrichtenempfängen und/oder Nachrichtenübertragungen angegeben ist, kann das Timing und die Reihenfolge dieser Schritte, Empfänge und Übertragungen gegebenenfalls variieren, ohne den Zweck und die Vorteile der im Folgenden näher erläuterten Beispiele im weiteren Verlauf dieser Offenbarung zu verneinen. Die Datenverarbeitungsvorrichtung kann das Verfahren 300 unter anderem beim Einschalten, zu einem vorbestimmten Zeitraum danach, als Reaktion auf einen Auslöser, der lokal an der Vorrichtung über einen internen Prozess oder über eine Eingabeschnittstelle erfolgt (beispielsweise unter anderem dem Benutzer, der ein bestimmtes Merkmal im Zusammenhang mit dem Verfahren 300 über eine Eingabeschnittstelle aktiviert, oder der Datenverarbeitungsvorrichtung, die feststellt, dass die Datenverarbeitungsvorrichtung in einen bestimmten Bereich oder ein bestimmtes Fahrzeug eingedrungen ist oder dass ein Benutzer davon einen bestimmten Bereich oder ein bestimmtes Fahrzeug verlassen hat), oder als Reaktion auf das Feststellen eines Auslösers (einschließlich des Empfangs von Medieninhalten zur Verarbeitung gemäß dem Verfahren 300) von einem tragbaren Funkgerät, einem Fahrzeug einem Infrastrukturcontroller oder einer anderen Datenverarbeitungsvorrichtung, an die sie kommunikativ gekoppelt ist, ausführen.
Die Datenverarbeitungsvorrichtung, die das Verfahren 300 ausführt, kann unter anderem eine EDGE-Vorrichtung beinhalten, die einem oder mehreren der in 1 dargestellten, dem tragbaren Funkgeräte 104, dem RSM 106, dem Laptop 114, der Smart-Brille 116 und der in 1 dargestellten Fahrzeugdatenverarbeitungsvorrichtung 133 entspricht oder zu diesen ähnlich ist, kann eine Infrastrukturvorrichtung beinhalten, die dem Controller 156 aus 1 entspricht oder zu diesem ähnlich ist, kann ein anderes In-Field-Infrastruktur-RAN- oder eine entfernte Cloud-Computing-Cluster 162 -Vorrichtung beinhalten, oder kann zwei oder mehr der vorgenannten Komponenten beinhalten, die gemäß verteilter Datenverarbeitung („in a distributed computing manner“) arbeiten.
Das Verfahren 300 beginnt bei Schritt 302, in dem eine elektronische Datenverarbeitungsvorrichtung, die als ein elektronischer digitaler Assistent arbeitet, von einer Videoerfassungsvorrichtung, die dazu eingerichtet ist, eine Blickrichtung eines ersten Benutzers zu verfolgen, einen Videostream empfängt, der ein erstes Sichtfeld beinhaltet, das im Wesentlichen mit einem Sichtfeld des ersten Benutzers übereinstimmt. Die Videoerfassungsvorrichtung kann beispielsweise eine intelligente Brille wie die Smart-Brille 116 aus 1 sein, die aufgrund ihrer konstruktiven Gestaltung und ihrer Positionierung am Körper des Benutzers automatisch ein Sichtfeld des Benutzers 102 körperlich verfolgt und so einen Videostream erzeugt, der im Wesentlichen direkt mit einem Sichtfeld ihres Trägers übereinstimmt (beispielsweise plus oder minus 5° in jede Richtung). Zusätzlich oder alternativ kann die Smart-Brille 116 eine Form eines Augen-Tracking-Mechanismus beinhalten, der eine feinkörnigere Eingabe darüber bereitstellen kann, auf welchen Teil eines von einer in die Smart-Brille 116 integrierten Videoerfassungsvorrichtung insgesamt erfassten vertikalen und horizontalen Sichtfeldes die Augen des Benutzers 102 gerichtet oder fokussiert sind. Natürlich kann in anderen Fällen, wie bereits erwähnt, eine separate elektronische Kopf- und/oder Augen-Tracking-Vorrichtung, wie zum Beispiel die Kopf- und/oder Augen-Tracking-Vorrichtung 139 aus 1, vom Benutzer 102 gelöst werden, dem sie folgt, kann aber ebenfalls Informationen für die Datenverarbeitungsvorrichtung (wie die Fahrzeugdatenverarbeitungsvorrichtung 133) erzeugen und bereitstellen, die einen Teil des Sichtfeldes des Benutzers 102 betreffen, das über eine Fahrzeugkamera, wie die Fahrzeugvideokamera 134, erfasst wurde, auf die der Kopf und/oder die Augen des Benutzers 102 gerichtet oder fokussiert sind. Nur als ein Beispiel, die Kopf- und/oder Augen-Tracking-Vorrichtung kann bestimmen, dass der Kopf und/oder die Augen eines Benutzers von einem insgesamt von einer assoziierten Videoaufnahmevorrichtung erfassten 120°-Sichtfeld, auf einen oberen linken Quadranten des erfassten Sichtfeld-Videos fokussiert sind, der 60° in vertikaler Richtung und 60° in horizontaler Richtung darstellt (beispielsweise ¼ des ursprünglich erfassten Sichtfeldes). Natürlich können auch andere Bereiche des erfassten Sichtfeldes von der assoziierten Videoerfassungsvorrichtung erfasst werden (beispielsweise zwischen 60° und 360°) und andere Teilbereiche des erfassten Sichtfeldes können von der Kopf- und/oder Augen-Tracking-Vorrichtung identifiziert werden (beispielsweise 1/10 bis 1/2 des erfassten Sichtfeldes, möglicherweise abhängig davon, ob eine oder beide Kopf- und Augen-Tracking-Vorrichtungen vorhanden sind und der elektronischen Datenverarbeitungsvorrichtung begrenzende Angaben für das Sichtfeld liefern).
Um zu der beispielhaften Fahrerkopf- und/oder Augen-Tracking-Vorrichtung 139 aus 1 zurückzukehren, die Vorrichtung 139 kann eine nach hinten gerichtete (in Bezug auf die Rückseite des Fahrzeugs) optische Aufzeichnungsvorrichtung sein, die in der Lage ist, eine Position des Kopfs und/oder der Blickrichtung des Fahrers (beispielsweise des Benutzers 102) zu verfolgen und basierend auf der optischen Verfolgung eine Richtung, in die der Benutzer 102 sieht, zu bestimmen (wobei 0° horizontal direkt vor dem Benutzer und 90° tangential rechts vom Benutzers 102 ist und dies weiter bis zu 360° zur horizontalen Position bei 0° fortgesetzt werden kann, und wobei 0° vertikal bündig mit einem erfassten Horizont ist und 90° tangential direkt über dem Benutzer 102 liegt und dies weiter bis zu 360° fortgesetzt werden kann 360° zur vertikal bündigen Position bei 0°). So kann beispielsweise die nach hinten gerichtete Kopf- und/oder Augen-Tracking-Vorrichtung 139 die Blickrichtung des Benutzers 102 optisch verfolgen, indem sie infrarote Lichtreflexionen verwendet, um Bewegungen des Pupillenzentrum des Benutzers 102, der Vorderseite der Hornhaut und/oder der Rückseite der Linse zu verfolgt, oder durch Verfolgen von Bewegungen in erkannten retinalen Blutgefäßen. In anderen Ausführungsformen kann die Vorrichtung 139 eine Gesichtserkennung bei erfassten 2D-Bildern verwenden, um eine Richtung zu erkennen, in die das Gesicht des Benutzers 102 gerichtet ist. Darüber hinaus kann eine Tiefenkamera verwendet werden, um 3D-Tiefenbilder aufzunehmen und eine Richtung zu erkennen, in die das Gesicht des Benutzers 102 gerichtet ist.
In noch weiteren Ausführungsformen kann die Vorrichtung 139 ein elektromechanisches System sein, das körperlich mit dem Kopf 102 des Benutzers verbunden werden kann und das elektromechanisch die Richtung des Kopfs des Benutzers 102 erfassen kann und körperliche Richtungsinformationen in einer ähnlichen Weise wie vorstehend beschrieben übertragen kann. Darüber hinaus kann die Vorrichtung 139 ein elektromagnetisches System sein, das so geartet ist, dass es Änderungen in Magnetfeldern erfasst, wenn der Benutzer 102 seinen Kopf bewegt, und kann ebenfalls elektronisch die erfasste Kopfposition des Benutzers 102 gemäß den vorangegangenen Ausführungen an die elektronische Datenverarbeitungsvorrichtung übermitteln. Weitere Möglichkeiten der elektromechanischen Verfolgung bestehen ebenfalls. Und es sind auch noch andere Methoden zur Verfolgung der Kopf- und/oder Blickrichtung eines Benutzers 102 ebenfalls möglich, innerhalb oder außerhalb des Fahrzeugs 132, wie oben beschrieben. Es gibt auch andere Möglichkeiten der Verfolgung, einschließlich einer Kombination von zwei oder mehr der vorgenannten.
Der Videostream, der bei der elektronischen Datenverarbeitungsvorrichtung in Schritt 302 empfangen wird, kann ein vollständiges Sichtfeld (beispielsweise größer als das Sichtfeld des Benutzers wie zum Beispiel von einer 360°-Videoaufnahmevorrichtung) beinhalten, das von der Videoerfassungsvorrichtung erfasst wird, das dann gemäß zusätzlichen Kopf- und/oder Augen-Tracking-Informationen unterausgewählt werden kann, die separat von der Videoerfassungsvorrichtung (beispielsweise der Smart-Brille) oder einer anderen separaten Kopf- und/oder Augen-Tracking-Vorrichtung empfangen werden, oder der bei der elektronischen Datenverarbeitungsvorrichtung bei Schritt 302 empfangene Videostream kann bereits in einem unterausgewählten Zustand bereitgestellt werden, wobei die Videoerfassungsvorrichtung oder eine andere Datenverarbeitungsvorrichtung, die kommunikativ mit der Videoaufnahmevorrichtung gekoppelt ist (und möglicherweise in die Kopf- und/oder Augen-Tracking-Vorrichtung eingebettet oder integriert ist), die Unterauswahl durchführen kann, bevor der Videostream bei Schritt 302 der elektronischen Datenverarbeitungsvorrichtung bereitgestellt wird.
Die Art und Weise, wie ein begrenztes Sichtfeld aus einem breiteren Sichtfeld extrahiert wird, das im Videostream enthalten ist, kann, wo auch immer es durchgeführt wird, je nach der zugrunde liegenden Medienkodierungsmethode des Videostreams variieren. Bei Medienformaten, die alle Bilddaten für jeden Einzelframe vollständig kodieren, kann die Unterauswahl des begrenzten Sichtfeldes einfach das Extrahieren jener Quadranten des Videostreams, die dem eingeschränkteren Sichtfeld entsprechen, unter Verwendung der oben beschriebenen Sichtfeldinformationen beinhalten. Bei Medienformaten, die nur Änderungen der Bilddaten zwischen Schlüsselframes kodieren, kann die Unterauswahl des begrenzten Sichtfeldes das Extrahieren jener Quadranten (oder anderer Bereichsdefinitionen, einschließlich, ohne darauf beschränkt zu sein, Punkt- und Radius-Definition, polygonale Definition usw.) der Schlüsselframes, die dem extrahierten und begrenzten Sichtfeld entsprechen, beinhalten und das Neukodieren von Änderungen zwischen den extrahierten Schlüsselframeteilen in einen neuen kodierten Videostream kann, wie oben beschrieben, die Verwendung der Sichtfeldinformationen beinhalten. Andere Verfahren zur Unterauswahl im Sichtfeld sind ebenfalls möglich. Sakkaden sind beispielsweise schnelle Bewegungen zwischen den Fixierungspunkten. Diese Bewegungen haben einzigartige Muster und sind erkennbar. Diese Bewegungen können verwendet werden, um Inhalte zu markieren, die der Benutzer wahrscheinlich an den Fixierungspunkten aufgenommen hat, und Inhalte in Bereichen zwischen diesen Punkten werden nicht als vom Benutzer aufgenommen markiert.
In einigen Ausführungsformen kann die Videoerfassungsvorrichtung, die den Videostream bei Schritt 302 bereitstellt, eine separate Audioerfassungsvorrichtung beinhalten oder mit dieser assoziiert sein, und ein den Videostream begleitender Audiostream kann der elektronischen Datenverarbeitungsvorrichtung bei Schritt 302, zur weiteren Verwendung bei Schritt 304 bereitgestellt werden. So kann beispielsweise das mit der Videokamera 134 gekoppelte Mikrofon 135 Umgebungsaudio, einschließlich vom Benutzer 102 erzeugtes Sprachaudio, erfassen und einen entsprechenden Audiostream, unter anderen Möglichkeiten, für die Fahrzeugdatenverarbeitungsvorrichtung 133, den Controller 156 und/oder den Cloud-Computer-Cluster 162 bereitstellen.
Nach dem Empfangen des Videostreams bei Schritt 302 (und optional auch eines zugehörigen Audiostreams) fährt das Verfahren 300 mit Schritt 304 fort, wo die elektronische Datenverarbeitungsvorrichtung ein Objekt im Videostream des ersten Sichtfeld identifiziert, das für eine vorbestimmte Zeitspanne im ersten Sichtfeld verbleibt und als Reaktion das Objekt mit einem Videoverarbeitungsalgorithmus verarbeitet. Der Videoverarbeitungsalgorithmus erzeugt Objektinformationen, die der elektronischen Datenverarbeitungsvorrichtung zur Verfügung gestellt werden, die dann die Objektinformationen und alle anderen zugehörigen Metadaten (einschließlich Audio) in einem nichtflüchtigen Speicher als zukünftige Referenz für die Beantwortung von Anfragen des Benutzers speichern kann. In Ausführungsformen, in denen der elektronischen Datenverarbeitungsvorrichtung ein vollständiger Videostream des Sichtfelds und Identifizierungsinformationen des Sichtfeldes bereitgestellt werden, die einem Teilbereich des Sichtfeldes eines mit dem Videostream assoziierten Benutzers identifizieren, kann die elektronische Datenverarbeitungsvorrichtung Bereiche des Videostreams, die mit den Identifizierungsinformationen des Sichtfeldes übereinstimmen, und Bereiche des Videostreams, die nicht mit den Identifizierungsinformationen des Sichtfeldes übereinstimmen, separat verarbeiten und Objektinformationen, die in den übereinstimmenden Sichtfeldbereichen des Videostreams identifiziert wurden, als im Sichtbereich liegende Objektinformationen speichern, und Objektinformationen, die außerhalb der übereinstimmenden Sichtfeldabschnitte des Videostreams identifiziert wurden als nicht im Sichtbereich liegende Objektinformationen speichern.
Das identifizierte Objekt kann jede Art materieller Sache sein, die vom Benutzer gesehen und (hypothetisch, wenn auch nicht wörtlich) berührt werden kann, wie zum Beispiel eine Person, ein Gebäude, ein Werkzeug, ein Tier, ein Zeichen, ein Ereignis, ein Fahrzeug oder eine andere Art von Objekt. Die elektronische Datenverarbeitungsvorrichtung kann einen Objekterkennungsalgorithmus mit Zugriff auf eine Datenbank mit bekannten Objekten auf den empfangenen Videostream (einschließlich des im Sichtbereich liegenden Streams und/oder des außerhalb des Sichtbereichs liegenden Videostreams) anwenden und ein oder mehrere Objekte identifizieren, die mit einem bekannten Objekt oder Objekten aus der Objekterkennungsdatenbank übereinstimmen. Verschiedene Bildverarbeitungsalgorithmen können verwendet werden, um Objekte im Videostream, die in Schritt 302 empfangen werden, mit einem bekannten Objekt abzugleichen, einschließlich, ohne darauf beschränkt zu sein, geometrisches Hashing, Kantenerkennung, SIFT („scaleinvariant feature transform“), SURF („speeded-up robust features“), neuronale Netze, Deep Learning, genetische, gradientenbasierte und ableitungsbasierte Abgleichansätze, Viola-Jones-Algorithmus, Vorlagenabgleich oder Bildsegmentierung und Blobanalyse. Es existieren auch andere Möglichkeiten. Sobald ein Objekt abgeglichen ist, können Metadaten, die das Objekt aus der Objekterkennungsdatenbank beschreiben (beispielsweise die Identifizierung des Objekts als Person, Fahrzeug, Gebäude, Werkzeug, Tier, Zeichen, Ereignis, Fahrzeug oder eine andere Art von Objekt), in den Videostream eingebettet und gespeichert werden, bevor der Videostream gespeichert wird, oder in einer separaten Metadaten-Datei des Videostreams gespeichert und zusammen mit dem Videostream gespeichert werden (und beide mit dem Benutzer assoziiert). Zusätzliche Metadaten betreffend das identifizierte Objekt können aus dem Videostream oder anderen Quellen (beispielsweise Audio, wie unten näher beschrieben) identifiziert und/oder extrahiert und ebenfalls gespeichert werden, einschließlich, ohne darauf beschränkt zu sein, eine Farbe des Objekts, einer Zeit (einem Zeitpunkt oder einem Zeitfenster, zu (während) dem es teilweise (25% oder weniger) oder zum größten Teil (50% - 90%) oder vollständig (100%) sichtbar ist), an dem das Objekt im Videostream erschienen ist, ein Ort, an dem das Objekt erkannt wurde (möglicherweise empfangen über eine in die elektronischen Datenverarbeitungsvorrichtung integrierte oder mit der elektronischen Datenverarbeitungsvorrichtung kommunikativ gekoppelte Standortbestimmungsvorrichtung oder durch Videoanalyse von Umgebungsobjekten wie Straßenschildern bestimmt), eine Rolle und/oder eine Identität des Benutzers, ein aktueller Vorfall, mit dem der Benutzer derzeit assoziiert ist, oder irgendeine andere Kontextinformationen.
In einem Beispiel kann das Objekt ein alphanumerisches Textobjekt (beispielsweise ein Polizeibericht) oder ein grafisches Objekt mit alphanumerischem Text (beispielsweise das Straßenschild 170 aus 1) sein, und gespeicherte Objektinformationen, die mit einem solchen Objekt verknüpft sind, können eine Identität des Objekts (beispielsweise „Polizeibericht“ oder „Straßenschild“ oder „Nummernschild“, wie durch den Objekterkennungsalgorithmus und die Datenbank bestimmt) und eine optische Zeichenerkennungsübersetzung des alphanumerischen Inhalts des Objekts (beispielsweise Name, Ort, Adresse, Zeit, Zeugenname(n), Vorfallstitel oder -kennung oder Status in Bezug auf den alphanumerischen Inhalt des Polizeiberichts oder den entsprechenden Straßennamen, die auf dem grafischen Objekt des Straßenschildes erscheinen, oder ein entsprechendes Kennzeichen, das auf einem grafischen Objekt des Kennzeichens erscheint), möglicherweise zusammen mit den zusätzlichen Metadaten, die bereits oben erwähnt wurden. Andere Arten von Objekten, die alphanumerischen Inhalt enthalten, könnten in gleicher Weise durch den Videoverarbeitungsalgorithmus verarbeitet werden, und ähnliche Objektinformationen, die zusammen mit dem Videostream gespeichert werden und mit dem Benutzer assoziiert sind, können erzeugt werden.
In anderen Beispielen kann das Objekt ein grafisches Objekt sein, das alphanumerischen Text enthält oder nicht, und die Objektinformationen können eine Identifizierung eines Typs des grafischen Objekts (beispielsweise eine Teekanne), eine Definition, die mit dem identifizierten Typ des grafischen Objekts assoziiert ist (beispielsweise ein Gefäß für kochendes Wasser), und/oder eine eindeutige Identität des grafischen Objekts (beispielsweise eine Teekanne am Wohnsitz des verdächtigen John Smith) beinhalten, möglicherweise die bereits erwähnten zusätzlichen Metadaten begleitend.
In noch weiteren Beispielen kann das Objekt eine Erfassung eines menschlichen Gesichts sein, und die elektronische Datenverarbeitungsvorrichtung kann einen Gesichtserkennungsalgorithmus, der Zugriff auf eine Datenbank mit bekannten Gesichtern hat, auf den Videostream anwenden, und die gespeicherten Objektinformationen können eine grafische Erfassung des Gesichts, einzigartige Eigenschaften des identifizierten grafischen Objekts des menschlichen Gesichts (zum Beispiel Abstandsmessungen zwischen Gesichtsmerkmalen, gemessene Größen von Gesichtsmerkmalen usw.) und/oder eine bestimmte eindeutige Identität der Person beinhalten, die über einen Gesichtserkennungsalgorithmus und eine Datenbankfunktion bestimmt wurde, wobei das grafische Objekt des menschlichen Gesichts abgeglichen wird. Verschiedene Gesichtserkennungsalgorithmen können verwendet werden, um gespeicherte Gesichter, die mit bekannten Mitarbeitern krimineller Organisationen assoziiert sind, abzugleichen, einschließlich, ohne darauf beschränkt zu sein, auf einen hochdimensionalen LBP-Algorithmus („local binary pattern algorithm“), einen Fisher-Vektoralgorithmus, einen Joint-Bayesian-Algorithmus und einen assoziierten Vorhersagealgorithmus. Andere Arten von Gesichtserkennungsalgorithmen können ebenfalls verwendet werden.
In einer zusätzlichen Ausführungsform kann die elektronische Datenverarbeitungsvorrichtung ferner auf Audioabschnitte des Audiostreams (falls vorhanden) zugreifen, die dem Videostream entsprechen, um zusätzliche Objektinformationen in Bezug auf Objekte, die im Videostream identifiziert wurden, zu extrahieren und zu erfassen. So kann beispielsweise der mit dem Videostream assoziierte Benutzer gleichzeitig mit der Erfassung und Erzeugung des Videostreams Audiokommentare abgeben, die eine zusätzliche Beschreibung geben und/oder der elektronischen Datenverarbeitungsvorrichtung bei der Identifizierung eines oder mehrerer Objekte im Videostream helfen können. Der Benutzer kann kommentieren, dass „die Teekanne noch heiß ist“, was dann vom Objekterkennungsalgorithmus erfasst und verwendet werden kann, um beim Identifizieren des Objekts als Teekanne zu helfen, die ansonsten erfolgte Identifizierung des Objekts als Teekanne zu bestätigen und/oder zusätzliche Metadaten (beispielsweise, das er „heiß“ war) zur Speicherung als Objektinformationen bereitzustellen, die die Identität des mit dem Benutzer assoziierten Objekts begleiten. Ein derartiges erfasstes Audio kann auch der elektronischen Datenverarbeitungsvorrichtung beim Bestimmen helfen, welche Teile eines Polizeiberichts innerhalb des Sichtfeldes des Benutzers der Benutzer gelesen und verstanden hat, in jenen Fällen, in denen der Benutzer Teile des Polizeiberichts laut vorlesen kann, und/oder kann dem optischen Zeichenerkennungsalgorithmus beim Umwandeln (und/oder Bestätigen einer Transkription) des Textes im Bericht zum Text zur Speicherung in den gespeicherten Objektinformationen. Es gibt auch andere Möglichkeiten.
Die elektronische Datenverarbeitungsvorrichtung kann anschließend aktiv einen oder beide Sätze von im Sichtbereich liegenden Objektinformationen und nicht im Sichtbereich liegenden Objektinformationen, die mit dem Benutzer assoziiert sind, gemäß einem oder mehreren Regelsätzen zur Aufbewahrung von Objektinformationen speichern. Die Regelsätze zur Aufbewahrung von Objektinformationen können, unter anderen Möglichkeiten, auf alle Benutzer angewendet werden, können je nach Rolle oder Identität des Benutzers variieren oder können vom Benutzer individuell festgelegt werden. Eine Regel in dem Regelsatz zur Aufbewahrung von Objektinformationen kann einen Ablauftimer festlegen, der angibt, wie lange die in Schritt 304 identifizierten und gespeicherten Objektinformationen als mit dem Benutzer assoziiert aufbewahrt werden. Nach Ablauf des Timers können die Objektinformationen archiviert, gelöscht, entfernt und/oder anderweitig für nachfolgende Schritte des Verfahrens 300 unzugänglich gemacht werden, einschließlich Schritt 312, der eine Antwort auf eine Benutzeranfrage als Funktion der mit dem Benutzer assoziierten Objektinformationen erzeugt. Eine Schwellenwertzeitspanne für den Ablauftimer ist eine vorbestimmte geschätzte Zeit, in der der Benutzer eigenständig Informationen in Bezug auf die Objektinformationen in der Ansicht behält, nachdem er das Objekt in seinem Sichtfeld betrachtet hat. Die Schwellenwertzeitspanne kann eine statisch angewandte Schwellenwertzeitspanne im Bereich von vier bis vierundzwanzig Stunden, oder zehn bis sechzehn Stunden oder zwölf Stunden sein. Auch andere statische Zeiträume sind möglich. In anderen Ausführungsformen kann die angewandte Schwellenwertzeitspanne für den Ablauftimer dynamisch sein und basierend auf einem oder mehreren Kontextparametern eingestellt werden, einschließlich, ohne darauf beschränkt zu sein, einem oder mehreren von einem bestimmten Alter des Benutzers, der mit dem Videostream assoziiert ist (wie aus einer Angestelltendatenbank abgerufen, zum Beispiel je höher das Alter, desto niedriger ist die Schwellenwertzeitspanne), eine gemessene Zeitspanne, die das Objekt im Sichtfeld des Benutzers verblieb (je länger das Objekt im Sichtfeld des Benutzers verblieb, desto höher ist die Schwellenwertzeitspanne), eine Anzahl von Momenten, in denen der Benutzer vom Objekt weggeschaut hat (das heißt, das Objekt verließ das Sichtfeld des Benutzers) und dann zum Objekt zurückgekehrt ist (das heißt, das Objekt kehrte in das Sichtfeld des Benutzers zurück, je höher die Anzahl, desto höher die Schwellenwertzeitspanne), eine Größe des Objekts, bestimmte Schlüsselwörter, die auf dem Objekt erscheinen, oder ein anderer Kontextparameter, der sich auf den Benutzer oder das Objekt bezieht. In anderen Ausführungsformen kann eine seit der letzten Betrachtung eines Objekts vergangene Zeit auf eine Wahrscheinlichkeit zum Erinnern und ein Wert für die Wahrscheinlichkeit zum Erinnern wird als Funktion der verstrichenen Zeit berechnet (neben anderen Parametern, einschließlich der oben genannten) und mit einem vorbestimmten organisationsweiten oder benutzerbezogenen Mindesterinnerungswahrscheinlichkeitswert verglichen werden, um zu bestimmen, ob die elektronische Datenverarbeitungsvorrichtung weiterhin eine Assoziierung zwischen den in Schritt 304 identifizierten und gespeicherten Objektinformationen und dem Benutzer aufrechterhalten soll.
In noch weiteren Ausführungsformen können einige Objekte als von der Ablaufzeit ausgenommen oder mit einem niedrigeren Mindesterinnerungswahrscheinlichkeitswert (einschließlich überhaupt keiner) identifiziert werden. Dies können beispielsweise Gegenstände sein, die spezielle Merkmale aufweisen, die ein durchschnittlicher Benutzer (oder ein bestimmter Benutzer) normalerweise für einen langen oder unbestimmten Zeitraum aufbewahren würde. So können beispielsweise ein Ort oder ein Datum oder Objekte, die in einem traumatischen Ereignis beteiligt sind, wie beispielsweise eine erkannte Explosion in einem Sichtfeld des Benutzers, als von der Ablaufzeit ausgenommen oder mit einem niedrigeren Mindesterinnerungswahrscheinlichkeitswert versehen werden.
Das Verfahren 300 fährt dann mit Schritt 308 fort, wo die elektronische Verarbeitungsvorrichtung anschließend eine Informationsanfrage des mit dem Videostream assoziierten Benutzers erhält. Die Anfrage kann beispielsweise in Form einer Sprachanforderung, die über ein integriertes Mikrofon an der elektronischen Datenverarbeitungsvorrichtung erfasst wird, oder einer Sprachanforderung, die an einer anderen Vorrichtung erfasst und der elektronischen Datenverarbeitungsvorrichtung (beispielsweise in Audio- oder Transkriptionsform) über ein oder mehrere drahtgebundene oder drahtlose Netzwerke bereitgestellt wird, die mit der vorstehend beschriebenen Systemarchitektur in Bezug auf das System 100 aus 1 konsistent sind. In anderen Ausführungsformen kann die Anfrage in Form einer Textnachricht, einer E-Mail, einer Instantmessage oder mit einem anderen Eingabemechanismus erfolgen.
Die Anfrage kann ein oder mehreres beinhalten aus einer Zeitangabe, einer Standortangabe, einer Vorfallsangabe, einer Personenangabe, einer Objektangabe oder einer anderen Angabe, die mit einer oder mehreren Objektinformationen, die bei Schritt 304 erzeugt und gespeichert wurden, übereinstimmen kann oder nicht.
Als ein Beispiel kann der Inhalt der Anfrage lauten: „Wie waren die Namen der Kreuzungsstraßen bei dem Vorfall im Stadtteil Bucktown von Chicago?“. Die Anfrage kann eine Sprachanfrage sein, die der Benutzer (ein Polizist) an die elektronische Datenverarbeitungsvorrichtung richtet, nachdem der Beamte von dem Vorfall zu einer Polizeistation zurückgekehrt ist und begonnen hat, einen Bericht zu verfassen. Als weiteres Beispiel kann der Inhalt der Anfrage lauten: „Wie lautete das Nummernschild des grünen Autos an der Unfallstelle heute Morgen?“ oder „Wie hieß der erste Zeuge im Bericht über den Raubüberfall auf das Ladengeschäft?“. Verschiedene Anfragen können in verschiedenen Branchen außerhalb der öffentlichen Sicherheit ebenfalls gestellt werden. So kann beispielsweise ein Sicherheitsmitarbeiter im Einzelhandel anfragen: „Wie war der Name des Produkts, das der verdächtige Dieb aus dem Regal genommen und in seine Jacke gesteckt hat?“ und/oder ein Öl-/Gasingenieur kann anfragen: „Was war die Kennung der undichten Quelle, die ich gestern gegen 15 Uhr entdeckt habe?“.
Das Verfahren 300 fährt dann mit Schritt 310 fort, wo die elektronische Verarbeitungsvorrichtung bestimmt, dass die Benutzeranfrage (beispielsweise hierin auch als Benutzersuchanfrage bezeichnet) mit zuvor gespeicherten Objektinformationen in Bezug steht. So kann beispielsweise die elektronische Datenverarbeitungsvorrichtung die Anfrage von Sprache in Text umwandeln (wenn sie nicht bereits in Textform vorliegt), die Anfrage zerlegen und versuchen, einen oder mehrere Suchbegriffe in der Anfrage mit zuvor gespeicherten Objektinformationen, die mit dem Benutzer assoziiert sind, abzugleichen.
Zusätzlich oder alternativ können Zeit- und/oder Ortsangaben in der Anfrage mit gespeicherten Objektinformationen einschließlich zugehöriger Zeit- und/oder Ortsangaben abgeglichen werden.
Als ein besonderes Beispiel, eine Suchanfrage eines Benutzers „Wie war das Nummernschild auf dem grünen Auto am Unfallort heute Morgen?“ kann von der elektronischen Datenverarbeitung zerlegt und mit gespeicherten Objektinformationen abgeglichen werden, die einen Zeitstempel des gleichen Tages, eine Zeitangabe geschehen am Morgen (beispielsweise 12:01 AM - 11:59 AM), die mit einer mit einem Autounfall assoziierten Ereigniskennung versehen sind, und/oder einen Objektdeskriptor mit den Begriffen „grün“ und „Auto“ beinhalten.
Als ein weiteres besonderes Beispiel kann eine Suchanfrage des Benutzers „Wie hießen die Zeugen aus dem Polizeibericht über den WAL-STORE-Raub, den ich gestern gelesen habe“ von der elektronischen Datenverarbeitung mit gespeicherten Objektinformationen abgeglichen werden, die einen Zeitstempel vom Vortages, eine mit einem Diebstahl assoziierte Ereigniskennung und/oder eine Objektbezeichner mit den Begriffen „Polizeibericht“ und/oder „WAL-STORE“ versehene Bezeichnung beinhalten.
Als weiteres Beispiel kann eine Suchanfrage „Wie war der Nachname des Tankstellenmitarbeiters John, mit dem ich gestern gesprochen habe“ durch die elektronische Datenverarbeitung mit gespeicherten Objektinformationen abgeglichen werden, die einen Zeitstempel des Vortages, einen Personennamen, der John als Vornamen beinhaltet (beispielsweise bestimmt durch Gesichtserkennung, durch Scan eines Namensschildes oder durch Audioeingabe), und/oder einen Objektbezeichner oder Standortmetadaten beinhaltend den Begriff „Tankstelle“ beinhalten.
Das Verfahren 300 fährt dann mit Schritt 312 fort, wo die elektronische Verarbeitungsvorrichtung eine Antwort auf die Benutzeranfrage in Abhängigkeit von den zuvor gespeicherten Objektinformationen des Benutzers bereitstellt. Die Antwort auf die Benutzeranfrage könnte auf verschiedene Weise bereitgestellt werden. Die Antwort kann beispielsweise in Form einer Sprachausgabe bereitgestellt werden, die lokal an der elektronischen Datenverarbeitungsvorrichtung reproduziert wird, oder an eine andere mobile oder elektronische Datenverarbeitungsvorrichtung übertragen wird, die dem Benutzer zur Reproduktion assoziiert ist. Das Bereitstellen der Antwort kann beispielsweise das Erzeugen einer textbasierten Ausgabe zur Reproduktion an der elektronischen Datenverarbeitungsvorrichtung oder einer anderen mobilen oder fahrzeuggebundenen Datenverarbeitungsvorrichtung, die mit dem Benutzer assoziiert ist (beispielsweise einen mit dem Benutzer assoziierten Ausgabetransducer-Lautsprechers), über eine Text-zu-Sprache-Softwarekomponente an der elektronischen Datenverarbeitungsvorrichtung, der mobilen Vorrichtung oder der fahrzeuggebundenen Datenverarbeitungsvorrichtung beinhalten, die den Text in Sprache umwandelt, um ihn über den lokalen Ausgabetransducer-Lautsprechers an den Benutzer auszugeben. So kann beispielsweise ein elektronischer digitaler Assistent, der an dem Controller 156 oder dem RSM 106 arbeitet, die Antwort bereitstellen, indem er eine Textdatei zur Audioausgabe erzeugt und zur Reproduktion an den Laptop 114 sendet. Als ein weiteres Beispiel kann ein elektronischer digitaler Assistent, der am Laptop 114 arbeitet, die Antwort bereitstellen, indem er eine Textdatei zur Audioausgabe für die lokale Reproduktion am Laptop 114 erzeugt.
Alternativ kann das Bereitstellen der Antwort bei Schritt 312 das Erzeugen einer digitalen Audiodatei mit digital codierter Sprache beinhalten, die einen wesentlichen Inhalt rezitiert, der als Funktion der Objektinformationen bei Schritt 312 zur Wiedergabe an den Benutzer erzeugt wird. So kann beispielsweise ein elektronischer digitaler Assistent, der an dem Controller 156 oder dem RSM 106 arbeitet, eine digital codierte Sprachdatei als Audioausgabe erzeugen und zur Reproduktion an den Laptop 114 übertragen. Als weiteres Beispiel kann ein am Laptop 114 arbeitender elektronischer digitaler Assistent eine digital codierte Sprachdatei als Audioausgabe für die lokale Reproduktion am Laptop 114 erzeugen.
Natürlich kann das Bereitstellen der Antwort in anderen Ausführungsformen lediglich das Übertragen einer Instant-Message, einer Textnachricht, einer E-Mail oder einer anderen textbasierten Abfrageantwort beinhalten, die eine Antwort auf die Benutzeranfrage als Funktion der Objektinformationen bereitstellt. Es gibt auch andere Möglichkeiten.
In noch weiteren Ausführungsformen kann die Antwort dem Benutzer (oder einer Gruppe, die den Benutzer beinhaltet) durch Abspielen des Audios der Antwort (die auf eine der vorstehend beschriebenen Arten erzeugt wurde) über einen etablierten PTT-Schmalband- oder -Breitband-Sprachkanal (Privatruf oder Gruppenrufsitzung) unter Verwendung einer oder mehrerer der zuvor beschriebenen Breitband- und Schmalbandanwendungen oder -protokolle zur Verfügung gestellt werden.
In einem bestimmten Beispiel, in dem die bei Schritt 310 identifizierten Objektinformationen ein alphanumerisches Textobjekt oder ein grafisches Objekt mit alphanumerischem Text war, können die zugehörigen Objektinformationen alphanumerischen Text beinhalten, der dem alphanumerischen Textobjekt entspricht oder aus dem grafischen Objekt extrahiert wurde, und die Antwort auf die Benutzeranfrage bei Schritt 312 kann mindestens einen Teil, oder den ganzen, alphanumerischen Text oder eine Umwandlung des alphanumerischen Textes in eine Audiowiedergabe beinhalten. Unter Verwendung der zuvor beschriebenen beispielhaften Anfrage, kann eine Benutzeranfrage „Wie war das Nummernschild des grünen Autos am Unfallort heute Morgen?“ mit entsprechenden zugehörigen Objektinformationen bei Schritt 310 abgeglichen werden, und die elektronische Datenverarbeitungsvorrichtung kann einen alphanumerischen Kennzeicheninhalt identifizieren, der mit der Benutzeranfrage von „XYZ123 IL“ übereinstimmt, und bei Schritt 312 in irgendeiner vorstehend beschriebenen Weise eine Antwort mit einer akustische Rezitation des alphanumerischen Kontextes „XYZ123 IL“ bereitstellen oder kann den alphanumerischen Text dem anfragenden Benutzer auf eine beliebige Anzahl anderer Arten zurückgeben, unter anderen Möglichkeiten mit einer Textnachricht, einer E-Mail oder einer Instant-Message. Eine ähnliche Antwort könnte bereitgestellt werden, wenn es bei der Anfrage um ein Straßenschild geht, wobei die Antwort alphanumerischen Text enthält, der aus einem physikalischen oder elektronischen Straßenschild extrahiert wurde.
In einigen Ausführungsformen, in denen der alphanumerische Text nicht vollständig aus dem grafischen Objekt extrahiert werden kann, kann in den Objektinformationen ein Hinweis gespeichert werden, der auf die Existenz von zusätzlichem potenziellem Text hinweist, der nicht mit hoher Sicherheit übersetzt werden konnte (beispielsweise mehr als 50% oder mehr als 70% oder 90% Sicherheit), und die in Schritt 312 bereitgestellte Antwort kann einen akustischen Hinweis auf das Vorhandensein von potenziellem Zusatztext (beispielsweise ein vorgegebener akustischer Ton oder eine erzeugte gesprochene Sprachangabe, dass „zusätzlicher unübersetzbarer Text vorhanden ist“) liefern, der dann als Anhaltspunkt für den Benutzer dienen könnte, um das grafische Objekt selbst anzusehen und vielleicht weiter zu versuchen, die Informationen zu entschlüsseln oder anderweitig abzugleichen.
In anderen Ausführungsformen, bei denen sich die Anfrage auf ein Straßenschild, ein Nummernschild oder einen anderen alphanumerischen Text auf einem grafischen Objekt bezieht, das der Benutzer gerade passiert hat (beispielsweise während er in einem sich bewegenden Fahrzeug ist), und die der elektronische digitale Assistent erkennen kann, dass der Benutzer es für eine gewisse minimale Zeitspanne betrachtet hat, aber vielleicht nicht vollständig verarbeiten konnte, kann eine Antwort auf eine Anfrage „Was war der Text auf dem Straßenschild, das ich gerade passiert habe“ mit Objekten abgeglichen werden, die innerhalb einer Schwellenwertzeitspanne in der Größenordnung von Sekunden (beispielsweise vor 1 - 30 oder vor 1 - 10 Sekunden) nach Empfang der Anfrage erkannt wurden. In solchen Fällen kann die Schwellenwertzeitspanne, während der das Objekt im Sichtfeld des Benutzers verbleiben muss, damit der elektronische digitale Assistent das Objekt als aufgenommen betrachten kann, über einen Standardwert oder einen Wert hinaus gesenkt werden, der anderen Kontext-Situationen zugeordnet ist, und kann in der Größenordnung von Zehntelsekunden oder einstelligen ganzen Sekunden (beispielsweise unter 10s) liegen.
In einem weiteren besonderen Beispiel, in dem die bei Schritt 310 identifizierten zugehörigen Objektinformationen ein alphanumerisches Textobjekt waren, das ein Bericht der öffentlichen Sicherheit bei einem Ereignis war, wie zum Beispiel ein Polizeibericht, können die zugehörigen Objektinformationen alphanumerischen Text beinhalten, der aus dem Polizeibericht extrahiert wurde, einschließlich Teilen des Polizeiberichts, die der Benutzer gelesen hat (beispielsweise eine ausreichende Schwellenzeit darauf verbracht hat, damit die elektronische Datenverarbeitungsvorrichtung sie als vom Benutzer aufgenommen betrachtet, wie zum Beispiel 10 - 60, oder 20 - 40, oder 30 Sekunden) und/oder Teilen des Polizeiberichts, die der Benutzer nicht gelesen hat (die zum Beispiel auf der Seite waren, aber nicht im wie in Schritt 302 und 304 bestimmten Sichtfeld des Benutzers lagen, oder die vom Benutzer angesehen wurden, aber nicht für die ausreichende Schwellenzeit, um vom Benutzer als aufgenommen betrachtet zu werden). Anhand des zuvor dargelegten Beispiels kann eine Benutzersuchanfrage „Wie hieß der Zeuge aus dem Polizeibericht über den WAL-STORE-Raub, den ich gestern gelesen habe?“ mit entsprechenden zugehörigen Objektinformationen bei Schritt 310 abgeglichen werden und die elektronische Datenverarbeitungsvorrichtung kann einen Namen „John Jacobs“ eines Zeugen aus dem Polizeibericht identifizieren und in Schritt 312 eine Antwort in irgendeiner Weise, wie vorstehend bereits beschrieben, als eine akustische Rezitation des alphanumerischen Textes „John Jacobs“ geben oder den alphanumerischen Text dem anfragenden Benutzer auf irgendeine beliebige andere Art zurückgeben, einschließlich, unter anderem, einer Textnachricht, einer E-Mail oder einer Instant-Message. Andere Arten von textbasierten Berichten oder Arbeitsvorgaben können ebenfalls verwendet werden, wie beispielsweise ein Arbeitsauftrag, ein Finanzbericht oder andere alphanumerische textbasierte Dokumente.
In Ausführungsformen, in denen ein zusätzlicher zweiter Zeuge in den Bericht aufgenommen wurde, aber die elektronische Datenverarbeitungsvorrichtung nicht zwischen gelesenen und ungelesenen Teilen des Berichts unterschied (oder nicht dazu eingerichtet war), kann die bei Schritt 312 bereitgestellte Antwort beide Zeugen beinhalten.
In Ausführungsformen, in denen die elektronische Datenverarbeitungsvorrichtung zwischen gelesenen und ungelesenen Abschnitten des Berichts unterschieden hat (oder dazu eingerichtet war) und der zusätzliche zweite Zeuge in einem ungelesenen Abschnitt des Berichts enthalten war, kann die elektronische Datenverarbeitungsvorrichtung den ersten Zeugen in der Antwort bei Schritt 312 als „John Jacobs“ bezeichnen und den Benutzer wahlweise in einer gleichen oder ergänzenden Antwort darüber informieren, dass ein zweiter Zeuge („Jack Smith“) in ungelesenen Abschnitten des Berichts enthalten ist, und den zweiten Zeugen in der Antwort ebenfalls benennen.
In noch weiteren Ausführungsformen, in denen die elektronische Datenverarbeitungsvorrichtung zwischen gelesenen und ungelesenen Teilen des Berichts unterschieden hat (oder dazu eingerichtet war) und der zusätzliche zweite Zeuge in einen ungelesenen Teil des Berichts aufgenommen wurde, kann die elektronische Datenverarbeitungsvorrichtung alternativ davon ausgehen, dass der Benutzer bereits vom ersten Zeugen „John Jacobs“ weiß, und stattdessen in der Antwort bei Schritt 312 nur mit dem Namen des zweiten Zeugen „Jack Smith“ antworten, von dem der elektronische digitale Assistent bestimmt hat, dass der Benutzer noch nicht über ihn gelesen hat (oder aber hingesehen hat, aber nicht lang genug, um den Mindestschwellenwert für die elektronische Datenverarbeitungsvorrichtung zu erreichen, um zu bestimmen, dass der Benutzer das Material aufgenommen hat), und den Benutzer optional in einer ergänzenden Antwort (automatisch oder auf Anfrage) darüber informieren kann, dass der erste Zeuge in den Abschnitten des Berichts enthalten war, die der Benutzer bereits gelesen und aufgenommen hat, und kann den ersten Zeugen in der ergänzenden Antwort auch benennen.
In zusätzlichen Ausführungsformen können die Antworten auf die oben genannten oder andere Anfragen betreffend Polizeiberichte unter anderen Möglichkeiten auch einen Namen, einen Ort, eine Adresse, eine Zeit oder einen Status beinhalten, der aus dem Bericht der öffentlichen Sicherheit extrahiert wurde, der auf die Anfrage reagiert.
In einem weiteren besonderen Beispiel, in dem die bei Schritt 310 identifizierten zugehörigen Objektinformationen ein grafisches Objekt waren, können die zugehörigen Objektinformationen grafische Objektidentifizierungsinformationen beinhalten, die das grafische Objekt identifizieren, und die Antwort auf die Anfrage kann eine grafischen Repräsentation des grafischen Objekts und/oder eine textuelle Beschreibung des grafischen Objekts beinhalten. Beispielsweise kann eine Benutzeranfrage „wie hieß das Produkt, das der verdächtige Dieb gestern Nachmittag beim WAL-STORE-Vorfall aus dem Regal genommen und in seine Jacke gesteckt hat“ mit entsprechenden zugehörigen Objektinformationen abgeglichen werden, die eine Bilderfassung eines grafischen Objekts (beispielsweise einer Handyhülle, die zu stehlen versucht wurde) und/oder eine textuelle Beschreibung des bei Schritt 304 erzeugten grafischen Objekts beinhalten können (beispielsweise „ein Mobiltelefon-Modell X1X-Paket“), und die Antwort auf die Anfrage kann eine Kopie des grafischen Objekts beinhalten (beispielsweise gesendet als Daten über dieselbe Applikation über die die Benutzeranfrage gesendet wurde, oder als eine Textnachricht, eine Instant-Message oder eine E-Mail oder einen anderen Mechanismus, der grafische Daten unterstützt), und/oder kann eine textuelle Beschreibung des grafischen Objekts beinhalten, die über eine akustische Antwort in einer bereits oben beschriebenen Weise bereitgestellt wird. In Ausführungsformen, bei denen sowohl die grafische als auch die textuelle Beschreibung des Objekts in der Antwort enthalten sind, kann die Antwort über gleiche oder getrennte Transportmechanismen bereitgestellt werden.
In einem weiteren bestimmten Beispiel, in dem die bei Schritt 310 identifizierten Objektinformationen eine grafische Objekterfassung eines menschlichen Gesichts war, können die zugehörigen Objektinformationen eine Identität einer Person beinhalten, die mit dem erfassten menschlichen Gesicht über eine Gesichtserkennung übereinstimmt, und/oder beschreibende Aspekte davon (wie Haarfarbe, Hautfarbe, Kleidungsfarbe, identifizierter Schmuck oder Accessoires usw.), und die Antwort auf die Anfrage kann eine Bilderfassung des menschlichen Gesichts, die Identität der Person, die mit dem erfassten menschlichen Gesicht übereinstimmt, und/oder einen oder mehrere der beschreibenden Aspekte davon beinhalten. Als Beispiel kann eine Anfrage „‚wer war die Person, die beschuldigt wurde, das Produkt gestern Nachmittag bei dem WAL-STORE-Vorfall gestohlen zu haben“, mit entsprechenden zugehörigen Objektinformationen verglichen werden, die eine Bilderfassung des verdächtigen Diebes und/oder eine Identität des verdächtigen Diebes beinhalten können (beispielsweise bestimmt über eine Gesichtserkennungsübereinstimmung mit einer früheren Täterdatenbank), und die Antwort auf die Anfrage kann eine Bildkopie des Gesichts als grafisches Objekt und/oder eine textuelle Beschreibung des grafischen Objekts (beispielsweise die Identität des verdächtigen Diebes) beinhalten, die über eine Audioantwort in gleicher oder unterschiedlicher Weise wie das grafische Objekt bereitgestellt wird, eins oder beides bereitgestellt in einer Weise, wie bereits oben beschrieben.
In einem der oben genannten Beispiele, in denen ein grafisches Objekt in der Antwort bei Schritt 312 bereitgestellt wird, kann die elektronische Datenverarbeitungsvorrichtung den weiteren Schritt unternehmen, einen zentralen Frame aus dem Videostream mit einem minimalen Grad an Unschärfe rechtzeitig zu identifizieren, den zentralen Frame (oder einen Teil davon einschließlich des im zentralen Frame des Videostreams identifizierten grafischen Objekts) als Objektinformationen zu speichern und den gesamten oder den Teil des zentralen Frames mit dem grafischen Objekt in der Antwort auf die Anfrage bereitzustellen.
In noch weiteren Beispielen und in Ausführungsformen, in denen Audio gleichzeitig mit dem Video, das das Objekt enthält, bei Schritt 302 erfasst wurde, kann die Antwort auf die Anfrage eine Reproduktion eines Teils oder des gesamten tatsächlich bei Schritt 302 erfassten Audios beinhalten, vielleicht zusätzlich zu einer in der oben beschriebenen Weise erzeugten Antwort oder anstelle der oben beschriebenen erzeugten Antwort. Beispielsweise und unter Verwendung des obigen Beispiels, mit einer Suchanfrage „Was war der Nachname des Tankstellenmitarbeiters John, mit dem ich gestern gesprochen habe“ und die Antwort den Nachnamen des Mitarbeiters John beinhaltet, der aus Objektinformationen extrahiert wurde, kann der Benutzer ferner eine Wiedergabe von Audio anfordern, die die die damalige Konversation mit John widerspiegelt, und eine ergänzende Antwort, die bei Schritt 312 erzeugt und dem Benutzer zur Verfügung gestellt wird, kann dann eine Kopie des Audios beinhalten, das während einer gleichen Zeit (oder innerhalb einer bestimmten Zeitspanne) aufgenommen wurde, mit der die vorherigen Objektinformationen abgeglichen wurden. In einer anderen Ausführungsform, bei der das Namensschild nicht gescannt wurde, um die Objektinformationen zu erzeugen, sondern der Benutzer das Namensschild laut vorlas, was vom elektronischen digitalen Assistenten erfasst wurde, kann die Antwort auf die Anfrage eine Wiedergabe des Benutzers beinhalten, der ursprünglich das Namensschild des Mitarbeiters laut vorlas, anstelle oder anstatt der elektronischen Wiedergabe der Sprachumwandlung der Informationen. Andere Beispiele sind ebenfalls möglich.
Zusammenfassung
Gemäß dem Vorstehenden wird eine verbesserte Vorrichtung, ein verbessertes Verfahren und ein verbessertes System für einen elektronischen digitalen Assistenten offenbart, zur rechnerischen Verarbeitung von Video in Bezug auf eine bestimmte Benutzerwahrnehmung dieses Videos und zur entsprechenden Anpassung der Anfrageantwort des elektronischen digitalen Assistenten auf eine nachfolgende Anfrage durch den Benutzer.
Als Ergebnis des vorstehenden und in einigen Ausführungsformen bestimmen elektronische digitale Assistenten rechnerisch, ob sie Informationen in einer Antwort auf eine Benutzeranfrage bereitstellen oder vermeiden, bei denen der elektronische digitale Assistent aufgrund der oben beschriebenen technischen Funktionen des extrahierten Sichtfelds des Benutzers und der Objekterkennungsfunktion bestimmt, dass der Benutzer sie bereits kennt. Dementsprechend können elektronisch generierte Antworten auf Benutzersuchanfragen einem Benutzer basierend auf zuvor vom Benutzer erkannten Wahrnehmungen von Objekten über Videoanalyse, die innerhalb eines bestimmten Schwellenzeitraums auftreten, individualisierteren Inhalt zur Verfügung stellen. Weitere Merkmale und Vorteile sind ebenfalls möglich.
In der vorangehenden Spezifikation sind spezifische Ausführungsformen beschrieben worden. Fachleuten auf dem Gebiet ist jedoch klar, dass verschiedene Modifizierungen und Änderungen vorgenommen werden können, ohne von dem Geist der Erfindung abzuweichen, wie in den Ansprüchen unten dargelegt. Dementsprechend sind die Spezifikation und die Abbildungen in einem eher illustrativen als einem restriktiven Sinne zu verstehen und alle solche Modifikationen sollen in dem Schutzbereich der vorliegenden Lehren enthalten sein. Die Nutzen, Vorteile, Problemlösungen und jedes denkbare Element, das dazu führt, dass irgendein Nutzen, Vorteil oder irgendeine Lösung eintritt oder ausgeprägter wird, sollen nicht als kritische, erforderliche oder essentielle Merkmale oder Elemente eines beliebigen Anspruchs oder aller Ansprüche ausgelegt werden. Die Erfindung wird ausschließlich durch die angehängten Ansprüche definiert, einschließlich jeder beliebigen Änderung, die während der Rechtshängigkeit der vorliegenden Anmeldung vorgenommen wird, und aller Äquivalente solcher Ansprüche, wie veröffentlicht.
Darüber hinaus sollen in diesem Dokument relationale Ausdrücke, wie zum Beispiel, erste und zweite, oben und unten, und dergleichen ausschließlich verwendet werden, um eine Entität oder Aktion von einer anderen Entität oder Aktion zu unterscheiden, ohne notwendigerweise irgend eine tatsächliche solche Beziehung oder Reihenfolge zwischen solchen Entitäten oder Aktionen zu erfordern oder zu implizieren. Die Ausdrücke „umfasst“, „umfassend“, „hat“, „habend“, „beinhalten“, „beinhaltend“, „enthalten“, „enthaltend“ oder eine beliebige Variation davon sollen eine nicht-exklusive Einbeziehung abdecken, so dass ein Prozess, Verfahren, Artikel oder eine Vorrichtung, die eine Liste von Elementen umfassen, haben, beinhalten, enthalten, nicht nur solche Elemente beinhalten, sondern andere Elemente beinhalten können, die nicht ausdrücklich aufgeführt werden, oder solchen Prozessen, Verfahren, Artikeln oder Vorrichtungen inhärent sind. Ein Element, das fortfährt mit „umfasst... ein“, „hat... ein“, „beinhaltet... ein“, „enthält... ein“, schließt nicht, ohne weitere Auflagen, die Existenz zusätzlicher identischer Elemente in dem Prozess, Verfahren, Artikel oder der Vorrichtung aus, die das Element umfassen, haben, beinhalten, enthalten. Die Ausdrücke „eine“ und „ein“ werden als eins oder mehr definiert, sofern hierin nichts anderes explizit festgelegt ist. Die Ausdrücke „im Wesentlichen“, „essentiell“, „ungefähr“, „etwa“ oder eine beliebige andere Version davon wurden als „nahe bei sein“ definiert, wie dem Fachmann auf dem Gebiet klar ist, und in einer nicht begrenzenden Ausführungsform wird der Ausdruck definiert, innerhalb von 10 %, in einer anderen Ausführungsform innerhalb von 5 % in einer anderen Ausführungsform innerhalb von 1 % und in einer anderen Ausführungsform innerhalb von 0,5 % zu sein. Der Ausdruck „gekoppelt“, wie er hierin verwendet wird, wird als „verbunden“ definiert, obwohl nicht notwendigerweise direkt und nicht notwendigerweise mechanisch. Eine Vorrichtung oder Struktur, die in einer bestimmten Art und Weise „konfiguriert“ ist, ist mindestens auf diese Art und Weise konfiguriert, kann aber auch auf mindestens eine Art und Weise konfiguriert sein, die nicht aufgeführt ist.
Es ist gewünscht, dass einige Ausführungsformen einen oder mehrere generische oder spezialisierte Prozessoren (oder „Verarbeitungsvorrichtungen“) umfassen, wie zum Beispiel Mikroprozessoren, digitale Signalprozessoren, kundenspezifische Prozessoren und freiprogrammierbare Feld-Gate-Arrays (FPGAs) und eindeutige gespeicherte Programmanweisungen (die sowohl Software als auch Firmware umfassen), die den einen oder mehrere Prozessoren steuern, um in Verbindung mit bestimmten Nicht-Prozessor-Schaltungen, einige, die meisten oder alle der Funktionen des Verfahrens und/oder der Vorrichtung, die hierin beschrieben werden, zu implementieren. Alternativ können einige oder alle Funktionen durch eine Zustandsmaschine implementiert werden, die über keine gespeicherten Programmanweisungen verfügt, oder in einer oder mehreren anwendungsspezifischen integrierten Schaltungen (ASICs), in denen jede Funktion oder einige Kombinationen von bestimmten der Funktionen, als kundenspezifische Logik implementiert sind. Selbstverständlich kann eine Kombination der zwei Ansätze verwendet werden.
Darüber hinaus kann eine Ausführungsform als ein computerlesbares Speichermedium implementiert sein, das über einen darauf gespeicherten computerlesbaren Code zum Programmieren eines Computers (der zum Beispiel einen Prozessor umfasst) verfügt, um ein hierin beschriebenes und beanspruchtes Verfahren durchzuführen. Beispiele solcher computerlesbaren Speichermedien umfassen, ohne darauf beschränkt zu sein: eine Festplatte, eine CD-ROM, eine optische Speichervorrichtung, eine magnetische Speichervorrichtung, einen ROM (Nur-Lese-Speicher), einen PROM (Programmierbarer Lesespeicher), einen EPROM (Löschbarer Programmierbarer Lesespeicher), einen EEPROM (Elektrisch Löschbarer Programmierbarer Lesespeicher) und einen Flash-Speicher. Weiterhin ist zu erwarten, dass ein Fachmann auf dem Gebiet, ungeachtet möglicher erheblicher Anstrengungen und einer großen Designauswahl, die zum Beispiel durch eine zur Verfügung stehende Zeit, der aktuellen Technologie und ökonomische Überlegungen begründet ist, geleitet durch die hierin offenbarten Konzepte und Prinzipien, ohne Weiteres in der Lage ist solche Softwareanweisungen und Programme und ICs mit minimalem Versuchsaufwand zu erzeugen.
Die Zusammenfassung der Offenbarung wird zur Verfügung gestellt, um dem Leser zu erlauben, die Natur der technischen Offenbarung schnell zu erkennen. Es wird mit dem Verständnis eingereicht, dass es nicht verwendet wird, um den Geist oder die Bedeutung der Ansprüche zu interpretieren oder zu begrenzen. Zusätzlich ist der vorangehenden ausführlichen Beschreibung zu entnehmen, dass verschiedene Merkmale in verschiedenen Ausführungsformen zusammengruppiert werden, um die Offenbarung zu straffen. Dieses Offenbarungsverfahren soll nicht als ein Reflektieren einer Intention interpretiert werden, dass die beanspruchten Ausführungsformen mehr Merkmale erfordern, als ausdrücklich in jedem Anspruch vorgetragen werden. Vielmehr liegt, wie aus den folgenden Ansprüchen hervorgeht, ein erfinderischer Gegenstand in weniger als allen Merkmalen einer einzelnen offenbarten Ausführungsform vor. Somit werden die folgenden Ansprüche hierdurch in die ausführliche Beschreibung integriert, wobei jeder Anspruch für sich alleine als ein getrennt beanspruchter Gegenstand steht.

Claims

Verfahren zum Anpassen einer von einem elektronischen digitalen Assistenten erzeugten Anfrageantwort als Funktion von einer zuvor erfassten Benutzeraufnahme von zugehörigen Informationen, wobei das Verfahren umfasst: das Empfangen, bei einer elektronischen Verarbeitungsvorrichtung, von einer Videoerfassungsvorrichtung, die eingerichtet ist zum Verfolgen einer Blickrichtung eines ersten Benutzers, eines Videostreams mit einem ersten Sichtfeld, das im Wesentlichen mit einem Sichtfeld des ersten Benutzers übereinstimmt; das Identifizieren, durch die elektronische Verarbeitungsvorrichtung, eines Objekts in dem Videostream mit einem ersten Sichtfeld, das für eine vorbestimmte Schwellenwertzeitperiode in dem ersten Sichtfeld verbleibt und antwortend, das Verarbeiten des Objekts durch einen Videoverarbeitungsalgorithmus und das Verursachen, durch die elektronische Verarbeitungsvorrichtung, Objektinformationen betreffend die Objektausgabe von dem Videoverarbeitungsalgorithmus in einem nicht flüchtigen Speicher zu speichern; anschließend das Empfangen, bei der elektronischen Verarbeitungsvorrichtung, einer Informationsanfrage von dem ersten Benutzer; das Bestimmen, durch die elektronische Verarbeitungsvorrichtung, dass die Anfrage die Objektinformationen betrifft; und das Bereitstellen, durch die elektronische Verarbeitungsvorrichtung, einer Antwort auf die Anfrage als Funktion der Objektinformationen.
Verfahren gemäß Anspruch 1, wobei das Objekt ein alphanumerisches Textobjekt oder ein graphisches Objekt mit alphanumerischem Text ist, wobei die Objektinformationen alphanumerischen Text entsprechend dem alphanumerischen Textobjekt oder alphanumerische Text, der aus dem graphischen Objekt extrahiert wird, beinhalten, und die Antwort auf die Anfrage wenigstens einen Teil des alphanumerischen Textes selbst oder eine Transformation des alphanumerischen Textes in eine Audiowiedergabe beinhaltet.
Verfahren gemäß Anspruch 2, wobei das Objekt das alphanumerische Textobjekt ist und ein Bericht betreffend ein Ereignis oder eine Arbeitsanweisung ist, und die Antwort auf die Anfrage einen Namen, einen Ort, eine Adresse, einen Zeitpunkt oder einen Status beinhaltet, der aus dem Bericht oder der Anweisung extrahiert wird und auf die Anfrage antwortet.
Verfahren gemäß Anspruch 2, wobei das Objekt das graphische Objekt mit alphanumerischem Text ist und ein Straßenschild oder ein elektronisches Verkehrsschild ist und die Antwort auf die Anfrage alphanumerischen Text beinhaltet, der von dem Straßenschild oder dem elektronischen Verkehrsschild extrahiert wird.
Verfahren gemäß Anspruch 1, wobei das Objekt ein graphisches Objekt ist, das die Objektinformationen graphische Objektidentifizierungsinformationen beinhalten, die das graphische Objekt durch Art, Definition oder Identität identifizieren und die Antwort auf die Anfrage eine graphische Repräsentation des graphischen Objekts beinhaltet.
Verfahren gemäß Anspruch 5, wobei das graphische Objekt eine Erfassung eines menschlichen Gesichts ist, die graphische Objektidentifizierungsinformationen eine Identität einer Person sind, die mit dem erfassten menschlichen Gesicht über ein Gesichtserkennung übereinstimmt, und die Antwort auf die Anfrage die Erfassung des menschlichen Gesichts und die Identität der Person beinhaltet, die mit dem erfassten menschlichen Gesicht übereinstimmt.
Verfahren gemäß Anspruch 5, ferner umfassend das Identifizieren durch die elektronische Verarbeitungsvorrichtung, eines zentralen Zeitframes in dem Videostream mit einem minimalen Grad an Unschärfe und das Bereitstellen des gesamten oder einen Teil des zentralen Frames mit dem Objekt in der Antwort auf die Anfrage.
Verfahren gemäß Anspruch 1, wobei das Verfahren ferner umfasst: das Speichern, begleitend die Objektinformationen, einer Zeit und/oder eines Datums, an dem das Objekt zuerst und/oder zuletzt in dem Videostream auftaucht.
Verfahren gemäß Anspruch 8, wobei die Anfrage eine Zeitbegrenzung beinhaltet und der Schritt des Bestimmens, durch die elektronische Verarbeitungsvorrichtung, dass die Anfrage die Objektinformationen betrifft, das Bestimmen beinhaltet, dass die gespeicherte Zeit und/oder das Datum mit der Zeitbegrenzung der Anfrage übereinstimmt.
Verfahren gemäß Anspruch 8, ferner umfassend, nach einer Schwellenwertzeitperiode nach der gespeicherten Zeit und/oder dem Datum, das Löschen der Objektinformationen und das Verweigern des Bereitstellens einer Antwort auf eine nachfolgende Anfrage von dem Benutzer als Funktion der Objektinformationen.
Verfahren gemäß Anspruch 10, wobei die Schwellenwertzeitperiode eine vorbestimmte Zeit ist, in der der Benutzer eigenständig Informationen in Bezug auf das Objekt in der Ansicht behält, nachdem er das Objekt in seinem Sichtfeld betrachtet hat.
Verfahren gemäß Anspruch 11, wobei die Schwellenwertzeitperiode basierend auf einer gemessenen Zeitspanne, die das Objekt in dem ersten Sichtfeld bleibt, und/oder einer gemessenen Anzahl von Wiederholungen, die das Objekt in dem ersten Sichtfeld wieder auftaucht, variiert wird.
Verfahren gemäß Anspruch 10, wobei die Schwellenwertzeitperiode in einem Bereich von 8 bis 24 Stunden ist.
Verfahren gemäß Anspruch 1, wobei das Verfahren ferner umfasst: das Speichern, begleitend zu Objektinformationen, eines geographischen Orts des ersten Benutzers und/oder des Objekts, zu einem Zeitpunkt, bei dem das Objekt zuerst und/oder zuletzt in dem Videostream erscheint.
Verfahren gemäß Anspruch 14, wobei die Anfrage eine Ortsbegrenzung beinhaltet, und der Schritt des Bestimmens, durch die elektronische Verarbeitungsvorrichtung, dass die Anfrage, die die Objektinformationen betreffen, das Bestimmen beinhaltet, dass der gespeicherte geographische Ort mit der Ortsbegrenzung in der Anfrage übereinstimmt.
Verfahren gemäß Anspruch 1, wobei die Videoerfassungsvorrichtung eine vom Benutzer getragene oder eine fahrzeuggestützte Videoerfassungsvorrichtung ist mit einem relativ großen Sichtfeld, und wobei das relativ große Sichtfeld auf das erste Sichtfeld reduziert wird durch Videoverarbeitung und als Funktion von Kopf-Tracking-Informationen oder Blick-Tracking-Informationen des ersten Benutzers, Empfangen durch eine entsprechende Kopf-Tracking- oder Blick-Tracking-Vorrichtung.
Verfahren gemäß Anspruch 1, wobei die Videoerfassungsvorrichtung eine Audioerfassungsvorrichtung beinhaltet, das Verfahren ferner das Verwenden von über die Audioerfassungsvorrichtung erfasstem Audio, durch die elektronische Datenverarbeitungsvorrichtung beinhaltet, um die Objektinformationen als eine Funktion des erfassten Audios zu erzeugen und/oder zu ergänzen.
Verfahren gemäß Anspruch 1, wobei das Bereitstellen der Antwort auf die Anfrage umfasst: das Verursachen eine Audioausgabe und/oder eine visuelle Ausgabe, die die Antwort auf die Anfrage beinhaltet, über einen zugehörigen Lautsprecher und/oder eine Displayvorrichtung, die mit dem Benutzer assoziiert ist, abzuspielen.
Verfahren gemäß Anspruch 1, wobei das Bereitstellen der Antwort auf die Anfrage als Funktion der Objektinformationen umfasst: das Ablehnen des Einschließens in die Antwort des Objekts oder der Objektinformationen, und stattdessen, das Bereitstellen zusätzlicher Informationen in der Antwort, die davon ausgeht, dass der Benutzer bereits in Kenntnis ist von und Wissen hat über das Objekt und/oder die Objektinformationen.
Elektronische Verarbeitungsvorrichtung zum Anpassen einer Anfrageantwort einer künstlichen Intelligenz als Funktion von zuvor erfassten Benutzeraufnahme von zugehörigen Informationen, das Verfahren umfasst: einen Speicher; einen Transceiver; und einen oder mehrere Prozessoren eingerichtet zum: Empfangen, von einer Videoerfassungsvorrichtung eingerichtet zum Verfolgen einer Blickrichtung eines ersten Benutzers, eines Videostreams mit einem ersten Sichtfeld, das im Wesentlichen mit einem Sichtfeld des ersten Benutzers übereinstimmt; Identifizieren eines Objekts in dem Videostream mit dem ersten Sichtfeld, das in dem ersten Sichtfeld für eine vorbestimmte Schwellenwertzeitspanne verbleibt und antwortend, das Verarbeiten des Objekts durch einen Videoverarbeitungsalgorithmus und das Verursachen, durch die elektronische Verarbeitungsvorrichtung, dass Objektinformationen betreffend die Objektausgabe von dem Videoverarbeitungsalgorithmus in einem nicht flüchtigen Speicher gespeichert wird; anschließendes Empfangen einer Anfrage nach Informationen von dem ersten Benutzer; Bestimmen, dass die Anfrage die Objektinformationen betrifft; und Bereitstellen einer Antwort auf die Anfrage, über eines aus: den Transceiver, einem Display, das kommunikativ mit der elektronischen Datenverarbeitungsvorrichtung gekoppelt ist, oder einem Lautsprecher, der kommunikativ mit der elektronischen Datenverarbeitungsvorrichtung gekoppelt ist, als Funktion der Objektinformationen.