DE102022107251A1

DE102022107251A1 - Umwandeln von Gebärdensprache

Info

Publication number: DE102022107251A1
Application number: DE102022107251.7A
Authority: DE
Inventors: Ariela E. Gruszka; Angela S. Parekh; Mandy W. Fortunati; Teresa M. Di Dio
Original assignee: Micron Technology Inc
Current assignee: Micron Technology Inc
Priority date: 2021-04-20
Filing date: 2022-03-28
Publication date: 2022-10-20
Also published as: CN115223428A; US11817126B2; US20220335971A1

Abstract

Es sind Verfahren und Vorrichtungen zur Umwandlung von Gebärdensprache beschrieben. Bei einem Beispiel kann ein Verfahren das Empfangen, an einer Verarbeitungsressource einer Rechenvorrichtung über ein Funkgerät der Rechenvorrichtung, einer ersten Signalisierung, wobei die erste Signalisierung mindestens eines von Textdaten, Audiodaten oder Videodaten oder eine beliebige Kombination davon beinhaltet, das Umwandeln, an der Verarbeitungsressource, von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten in Daten, die eine Gebärdensprache darstellen, das Erzeugen, an der Verarbeitungsressource, anderer Videodaten, die mindestens zum Teil auf den Daten basieren, die die Gebärdensprache darstellen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen, das Übertragen einer zweiten Signalisierung, die die anderen Videodaten darstellt, von der Verarbeitungsressource zu einer Benutzeroberfläche und das Anzeigen der Ausführung der Gebärdensprache auf der Benutzeroberfläche als Reaktion darauf, dass die Benutzeroberfläche die zweite Signalisierung empfängt, beinhalten.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft allgemein das Umwandeln von Gebärdensprache.
Hintergrund
Eine Rechenvorrichtung kann beispielsweise ein Smartphone, eine tragbare Vorrichtung, ein Tablet, ein Laptop, ein Desktop-Computer oder eine Smart-Assistant-Vorrichtung sein. Die Rechenvorrichtung kann Daten empfangen und/oder übertragen und kann eine oder mehrere Speichervorrichtungen beinhalten oder mit diesen gekoppelt sein. Speichervorrichtungen werden typischerweise als interne, integrierte Halbleiterschaltkreise in Computern oder anderen elektronischen Systemen bereitgestellt. Es gibt viele unterschiedliche Arten von Speicher, darunter flüchtigen und nichtflüchtigen Speicher. Flüchtiger Speicher kann Strom benötigen, um seine Daten (z. B. Hostdaten, Fehlerdaten usw.), und beinhaltet unter anderem Direktzugriffsspeicher (RAM), dynamischen Direktzugriffsspeicher (DRAM), statischen Direktzugriffsspeicher (SRAM), synchronen dynamischen Direktzugriffsspeicher (SDRAM) und Thyristor-Direktzugriffsspeicher (TRAM). Nichtflüchtiger Speicher kann persistente Daten bereitstellen, indem er gespeicherte Daten aufbewahrt, wenn er nicht mit Strom versorgt wird, und kann NAND-Flash-Speicher, NOR-Flash-Speicher und widerstandsvariablen Speicher, wie Phasenwechsel-Direktzugriffsspeicher (PCRAM), resistiven Direktzugriffsspeicher (RRAM) und magnetoresistiven Direktzugriffsspeicher (MRAM), wie unter anderem einen Spin-Torque-Transfer-Direktzugriffsspeicher (STT RAM), beinhalten.
Figurenliste

1 veranschaulicht ein Beispiel einer Rechenvorrichtung zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.
2 veranschaulicht ein Beispiel eines Ablaufdiagramms zum Umwandeln von Gebärdensprache unter Verwenden eines KI-Modells gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.
3 veranschaulicht ein Beispiel eines Ablaufdiagramms zum Lehren eines KI-Modells, um Gebärdensprache umzuwandeln, gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.
4 ist ein Ablaufdiagramm eines Verfahrens zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.

Ausführliche Beschreibung
Die vorliegende Offenbarung beinhaltet Verfahren und Einrichtungen in Bezug auf das Empfangen von Textdaten, Audiodaten und/oder Videodaten, das Umwandeln der Textdaten, der Audiodaten und/oder der Videodaten in Daten, die eine Gebärdensprache darstellen, und das Erzeugen anderer Videodaten, die mindestens zum Teil auf den Daten, die Gebärdensprache darstellen, basieren. Bei einigen Beispielen können die Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache auf einer Benutzeroberfläche beinhalten.
Häufig bieten Medienplattformen Untertitel an, jedoch ziehen einige in der Gehörlosen-Gemeinschaft, einschließlich vorsprachlicher Gehörloser, die Gebärdensprache der Untertitelung vor. Dementsprechend kann das Anzeigen der Ausführung der Gebärdensprache von einem Benutzer an Stelle von oder in Kombination mit Untertitelung bevorzugt werden.
Es gibt über 100 unterschiedliche Gebärdensprachen auf der Welt, und Gebärdensprachen können sich je nach Land und/oder Region unterscheiden. Körpersprache, Gesichtsausdrücke und/oder Gesten können bei der Kommunikation in vielen Gebärdensprachen eine wichtige Rolle spielen. Unter Umständen sind Untertitel nicht in der Lage, Körpersprache, Gesichtsausdrücke und/oder Gesten genau wiederzugeben. Daher kann das Ausführen von Gebärdensprache, einschließlich Körpersprache, Gesichtsausdrücken und/oder Gesten, genauer sein als Untertitelung.
Ebenso können beim Umwandeln von Gebärdensprache in Text, Audio und/oder Video in einer anderen Sprache Kommunikationshinweise fehlen, die vom Gebärdensprachebenutzer über Körpersprache, Gesichtsausdrücke und/oder Gesten bereitgestellt werden, die für den Gebärdensprachebenutzer und/oder für die Gebärdensprache spezifisch sein können. Das Erkennen und Integrieren dieser Hinweise in Text, Audio und/oder Video in einer anderen Sprache kann eine genauere Kommunikation und weniger Fehlinformationen und/oder Missverständnisse ermöglichen.
Einem Modell der künstlichen Intelligenz (KI) kann beigebracht werden, genau zwischen Gebärdensprache und einer anderen Sprache umzuwandeln. Beispielsweise kann das KI-Modell die Sprache, Stimmlagen, Wortwahl, Körpersprache, Gesichtsausdrücke und/oder Gesten eines Benutzers lernen und interpretieren und an andere übermitteln. Das KI-Modell kann auch Sprache, Stimmlagen, Wortwahl, Körpersprache, Gesichtsausdrücke und/oder Gesten anderer lernen und interpretieren, um ihre Kommunikationen an den Benutzer genau zu übermitteln. Bei einigen Beispielen können die Textdaten, die Audiodaten und/oder die Videodaten in Daten umgewandelt werden, die eine Gebärdensprache darstellen und die die anderen Videodaten erzeugen, die die Anweisungen für die Anzeige der Ausführung der Gebärdensprache als Reaktion auf das Ausführen eines KI-Vorgangs an den Textdaten, den Audiodaten und/oder den Videodaten umfassen.
Wie hierin verwendet, kann sich „eine Anzahl von“ etwas auf eines oder mehrere solcher Dinge beziehen. Eine „Vielzahl“ von etwas bedeutet zwei oder mehr. Die Figuren hierin folgen einer Nummerierungskonvention, bei der die erste Ziffer oder Ziffern der Figurenzeichnungsnummer entsprechen und die verbleibenden Ziffern ein Element oder eine Komponente in der Figur identifizieren. Gleichartige Elemente oder Komponenten zwischen unterschiedlichen Figuren können durch Verwendung gleichartiger Ziffern identifiziert werden. Zum Beispiel kann das Bezugszeichen 216 das Element „16“ in 2 referenzieren, und ein ähnliches Element kann in 3 als 316 bezeichnet werden. In einigen Fällen kann eine Vielzahl ähnlicher, aber funktionell und/oder strukturell unterscheidbarer Elemente oder Komponenten in derselben Figur oder in unterschiedlichen Figuren nacheinander mit derselben Elementnummer bezeichnet werden. Es versteht sich, dass Elemente, die in den verschiedenen Ausführungsformen hierin gezeigt sind, hinzugefügt, ausgetauscht und/oder weggelassen werden können, um eine Anzahl zusätzlicher Ausführungsformen der vorliegenden Offenbarung bereitzustellen. Zusätzlich sollen die Proportion und der relative Maßstab der in den Figuren bereitgestellten Elemente verschiedene Ausführungsformen der vorliegenden Offenbarung veranschaulichen und nicht in einem einschränkenden Sinne verwendet werden.
1 veranschaulicht ein Beispiel einer Rechenvorrichtung 100 zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Die Rechenvorrichtung 100 kann ein Smartphone, eine tragbare Vorrichtung, ein Tablet, ein Laptop, ein Desktop-Computer, eine Smart-Assistant-Vorrichtung, ein Fernsehgerät oder eine beliebige Kombination davon sein, ist aber nicht darauf beschränkt.
Ein Funkgerät 102, eine Verarbeitungsressource 104, eine Benutzeroberfläche 106, ein Speicher 108, eine Kamera 110 und/oder ein Sensor 112 können in der Rechenvorrichtung 100 beinhaltet und/oder damit gekoppelt sein. Die Rechenvorrichtung 100 kann Daten über drahtgebundene und/oder drahtlose Übertragungen unter Verwenden einer Kommunikationsvorrichtung (z. B. einer Zwischenvorrichtung), wie etwa, aber nicht beschränkt auf ein Funkgerät 102, empfangen und/oder übertragen. Das Funkgerät 102 kann es durch Signalisieren (z. B. Funksignale) und/oder eine Netzwerkbeziehung der Rechenvorrichtung 100 ermöglichen, mit einer oder mehreren anderen Rechenvorrichtungen, tragbaren Vorrichtungen, Telefonen, Sensoren, smarten Assistenten und/oder Cloud-Computing-Vorrichtungen zu kommunizieren. Beispiele für eine derartige Netzwerkbeziehung können, neben anderen Arten von Netzwerkbeziehungen, Bluetooth, AirDrop, ein Peer-to-Peer-Wi-Fi-Netzwerk, ein Mobilfunknetz, eine verteilte Computing-Umgebung (z. B. eine Cloud-Computing-Umgebung), ein Wide Area Network (WAN) wie das Internet, ein Local Area Network (LAN), ein Personal Area Network (PAN), ein Campus Area Network (CAN) oder ein Metropolitan Area Network (MAN) beinhalten.
Der Speicher 108 kann flüchtigen und/oder nichtflüchtigen Speicher, beispielsweise DRAM, NAND und/oder 3D-Crosspoint, beinhalten. Der Speicher 108 kann mit der Verarbeitungsressource 104 gekoppelt sein und kann Benutzereinstellungen 114 und ein KI-Modell 116 speichern. Der Speicher 108 kann eine beliebige Art von Speichermedium sein, auf das die Verarbeitungsressource 104 zugreifen kann, um verschiedene Beispiele der vorliegenden Offenbarung auszuführen. Beispielsweise kann der Speicher 108 ein nichtflüchtiges computerlesbares Medium mit darauf gespeicherten computerlesbaren Anweisungen (z. B. Computerprogrammanweisungen) sein, die durch die Verarbeitungsressource 104 ausführbar sind, um an der Verarbeitungsressource 104 der Rechenvorrichtung 100 über das Funkgerät 102 der Rechenvorrichtung 100 erste Signalisierung zu empfangen, die mindestens eine von Textdaten, Audiodaten, Videodaten oder eine beliebige Kombination davon beinhaltet, an der Verarbeitungsressource 104 mindestens eine der Textdaten, der Audiodaten oder der Videodaten oder eine beliebige Kombination davon in Daten umzuwandeln, die eine Gebärdensprache darstellen, an der Verarbeitungsressource 104 andere Videodaten mindestens zum Teil basierend auf den Daten, die die Gebärdensprache darstellen, zu erzeugen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen, eine zweite Signalisierung, die die anderen Videodaten darstellt, von der Verarbeitungsressource 104 an die Benutzeroberfläche 106 zu übertragen und die Ausführung der Gebärdensprache auf der Benutzeroberfläche 106 als Reaktion darauf, dass die Benutzeroberfläche 106 die zweite Signalisierung empfängt, anzuzeigen.
Bei einigen Beispielen können die Textdaten, die Audiodaten und/oder die Videodaten und die anderen Videodaten einschließlich der Ausführung der Gebärdensprache gleichzeitig auf der Benutzeroberfläche 106 angezeigt werden. Die Ausführung der Gebärdensprache kann durch einen oder mehrere Avatare (z. B. Deepfakes) ausgeführt werden. Der eine oder die mehreren Avatare können berühmte Personen, Charaktere, den Benutzer der Rechenvorrichtung 100 oder bekannte assoziierte Personen (z. B. Familie, Freunde, Kollegen, Bekannte) des Benutzers beinhalten. Falls beispielsweise ein Freund Textdaten an den Benutzer gesandt hat, kann der Freund der Avatar sein, der die Nachricht an den Benutzer auf der Benutzeroberfläche 106 signiert. Bei einigen Beispielen kann der Benutzer ein Video ansehen (z. B. einen Film, eine Fernsehsendung und/oder einen Videoclip), und ein oder mehrere Avatare können in der Ecke des Bildschirms beinhaltet sein. Wenn zum Beispiel eine Schauspielerin in einem Film spricht, kann ein Avatar der Schauspielerin angezeigt werden, der signiert, was sie dem Benutzer auf der Benutzeroberfläche 106 sagt. Wenn die Schauspielerin nicht mehr spricht, kann der Avatar der Schauspielerin von der Benutzeroberfläche 106 entfernt werden. Bei einigen Beispielen können mehrere Avatare, die ihren jeweiligen Figuren entsprechen, Gebärdensprache ausführen, wenn es mehrere Figuren in einer Szene gibt.
Die Benutzeroberfläche 106 kann durch die Rechenvorrichtung 100 als Reaktion auf das Empfangen einer Signalisierung von der Verarbeitungsressource 104 erzeugt werden. Die Benutzeroberfläche 106 kann eine grafische Benutzeroberfläche (Graphical User Interface - GUI) sein, die dem Benutzer der Rechenvorrichtung 100 Informationen bereitstellen und/oder von diesem empfangen kann. Bei einer Anzahl von Ausführungsformen kann die Benutzeroberfläche 106 auf einem Fernsehgerät und/oder einer Anzeige und/oder einem Hologramm der Rechenvorrichtung 100 gezeigt werden.
Ein Benutzer kann über die Benutzeroberfläche 106 Daten empfangen und/oder Auswahlen (z. B. Befehle) übertragen. Zum Beispiel kann die Benutzeroberfläche 106 eine Anzahl von Optionen anzeigen, und die Benutzeroberfläche 106 kann eine Auswahl einer oder mehrerer der Anzahl von Optionen als Reaktion darauf empfangen, dass der Benutzer die eine oder mehreren Optionen auf der Benutzeroberfläche 106 auswählt. Bei einigen Beispielen kann die Benutzeroberfläche 106 eine Eingabe von Benutzereinstellungen 114 und/oder eine Auswahl von Benutzereinstellungen 114 empfangen, und die Benutzeroberfläche 106 kann eine Signalisierung einschließlich von Daten, die die Benutzereinstellungen 114 darstellen, an die Verarbeitungsressource 104 übertragen. Bei einer Anzahl von Ausführungsformen kann die Kamera 110 die Benutzereinstellungen 114 in Gebärdensprache empfangen und eine Signalisierung, einschließlich der Daten, die die Benutzereinstellungen 114 darstellen, an die Verarbeitungsressource 104 übertragen. Die Kamera 110 kann eine Fotokamera, eine Videokamera und/oder ein Bildsensor sein und kann Fotos und/oder Videos aufnehmen.
Benutzereinstellungen 114 können auch von Sensordaten von dem Sensor 112 abgeleitet werden. Die Sensordaten können von dem Sensor 112 an die Verarbeitungsressource 104 übertragen werden, und die Verarbeitungsressource 104 kann die Daten, die die Benutzereinstellungen 114 darstellen, mindestens zum Teil basierend auf den Sensordaten erzeugen. Beispielsweise kann ein Standort der Rechenvorrichtung 100 als Reaktion darauf bestimmt werden, dass der Sensor ein globales Positionssystem (GPS) ist. Falls beispielsweise die Sensordaten von dem Sensor 112 Standortdaten übertragen, die angeben, dass sich die Rechenvorrichtung 100 in den Vereinigten Staaten befindet, kann die Verarbeitungsressource 104 bestimmen, dass die Spracheinstellung in den Benutzereinstellungen 114 auf Englisch programmiert werden sollte.
Bei einigen Beispielen können die Benutzereinstellungen 114 als Reaktion darauf, dass die Verarbeitungsressource 104 die Benutzereinstellungen 114 empfängt, im Speicher 108 gespeichert werden. Anweisungen für die Rechenvorrichtung 100 können basierend auf den Benutzereinstellungen 114 angelegt und ausgeführt werden. Beispielsweise kann die Verarbeitungsressource 104 die anderen Videodaten mindestens zum Teil basierend auf den Daten, die die Benutzereinstellungen 114 darstellen, erzeugen.
Die Rechenvorrichtung 100 kann über das Funkgerät 102 eine Signalisierung empfangen, die Sensordaten von einer anderen Rechenvorrichtung beinhaltet. Die Verarbeitungsressource 104 kann die anderen Videodaten mindestens zum Teil basierend auf den Sensordaten von der anderen Rechenvorrichtung erzeugen. Beispielsweise kann eine Herzfrequenz eines anderen Benutzers der anderen Rechenvorrichtung als Reaktion darauf bestimmt werden, dass der Sensor von der anderen Rechenvorrichtung ein Herzfrequenzmonitor ist. Wenn der Sensor von der anderen Rechenvorrichtung die Herzfrequenz des anderen Benutzers mit den Textdaten, Audiodaten und/oder Videodaten an die Rechenvorrichtung 100 überträgt, kann die Verarbeitungsressource 104 bestimmen, dass der andere Benutzer ängstlich ist. Bei einer Anzahl von Ausführungsformen kann die Verarbeitungsressource 104 die anderen Videodaten zum Teil basierend auf den Sensordaten, die die Angst des anderen Benutzers darstellen, erzeugen und Anweisungen bereitstellen, um die Angst des anderen Benutzers in dem anderen Video anzuzeigen.
Videodaten eines Benutzers können über die Kamera 110 empfangen und an die Verarbeitungsressource 104 übertragen werden. Die Verarbeitungsressource 104 kann die anderen Videodaten mindestens zum Teil basierend auf den Videodaten des Benutzers erzeugen. Beispielsweise kann die Ausführung der Gebärdensprache Gebärdensprache, Körpersprache, Gesichtsausdrücke und/oder Gesten des Benutzers verwenden, um die Kommunikation klar und für den Benutzer leicht verständlich zu machen.
Bei einer Anzahl von Ausführungsformen kann die Verarbeitungsressource 104 empfangene Textdaten, Audiodaten und/oder Videodaten in Daten, die Körpersprache, Gesichtsausdrücke und/oder Gesten darstellen, umwandeln. Die Verarbeitungsressource 104 kann die anderen Videodaten mindestens zum Teil basierend auf den Daten erzeugen, die die Körpersprache, Gesichtsausdrücke und/oder Gesten darstellen, und das andere Video kann Anweisungen zur Anzeige der Körpersprache, Gesichtsausdrücke und/oder Gesten umfassen.
Bei einigen Beispielen kann die Verarbeitungsressource 104 über die Kamera 110 eine Signalisierung empfangen, die Videodaten darstellt, die einen Buchstaben, ein Wort, eine Phrase, einen Satz und/oder eine Aussage in einer Gebärdensprache von einem Benutzer der Rechenvorrichtung 100 beinhalten. Die Verarbeitungsressource 104 kann die Videodaten in Textdaten, Audiodaten und/oder andere Videodaten in einer jeweiligen Sprache umwandeln.
Die Verarbeitungsressource 104 kann über das Funkgerät 102 eine Signalisierung, die die Textdaten, Audiodaten und/oder Videodaten beinhaltet, übertragen. Bei einer Anzahl von Ausführungsformen kann die Signalisierung, die die Videodaten darstellt, Körpersprache, Gesten und/oder Gesichtsausdrücke beinhalten. Die Textdaten, Audiodaten und/oder anderen Videodaten können mindestens zum Teil auf den Videodaten basieren. Beispielsweise können die Audiodaten eine auf den Videodaten basierende Stimmlage beinhalten.
Bei einer Anzahl von Ausführungsformen kann die Verarbeitungsressource 104 eine Signalisierung empfangen, die Textdaten, Audiodaten und/oder Videodaten von einer anderen Rechenvorrichtung darstellt, und die jeweilige Sprache der Textdaten, Audiodaten und/oder Videodaten bestimmen. Die Verarbeitungsressource 104 kann Videodaten eines signierenden Benutzers der Rechenvorrichtung 100 empfangen und die Videodaten des signierenden Benutzers der Rechenvorrichtung 100 in Textdaten, Audiodaten und/oder andere Videodaten in der jeweiligen Sprache der Nachricht von der anderen Rechenvorrichtung umwandeln. Beispielsweise kann die Rechenvorrichtung 100 eine Nachricht von einer anderen Rechenvorrichtung empfangen, die Sprache der Nachricht bestimmen und eine Antwort an die andere Rechenvorrichtung in derselben Sprache wie die empfangene Nachricht übertragen.
Die Verarbeitungsressource 104 kann Komponenten beinhalten, die dazu konfiguriert sind, es der Rechenvorrichtung 100 zu ermöglichen, KI-Vorgänge auszuführen. Bei einigen Beispielen können KI-Vorgänge Trainingsvorgänge oder Inferenzvorgänge oder beides beinhalten. Bei einer Anzahl von Ausführungsformen kann das KI-Modell 116 aus der Ferne in einer Cloud unter Verwenden von Musterdaten trainiert und an die Rechenvorrichtung 100 übertragen und/oder auf der Rechenvorrichtung 100 trainiert werden. Bei einigen Beispielen können die anderen Videodaten durch Ausführen eines KI-Vorgangs an den Daten, die die Gebärdensprache darstellen, unter Verwenden des KI-Modells 116 erzeugt werden.
2 veranschaulicht ein Ablaufdiagramm zum Umwandeln von Gebärdensprache unter Verwenden eines KI-Modells 216 gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Das KI-Modell 216 kann dem KI-Modell 116 in 1 entsprechen. Das KI-Modell 216 kann Text 220, Audio 222 und/oder Video 224 empfangen und den Text 220, das Audio 222 und/oder das Video 224 in Gebärdensprache 228 (z. B. anderes Video) umwandeln. Bei einigen Beispielen kann das KI-Modell 216 Gebärdensprache 228 von einer Kamera (z. B. Kamera 110 in 1) empfangen, die beispielsweise einen signierenden Benutzer aufzeichnet, und die Gebärdensprache 228 in Text 220, Audio 222 und/oder Video 224 umwandeln.
Die Textdaten 220 können eine Anzahl von Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten und/oder Satzzeichen beinhalten. Die Verwendung der Anzahl von Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten und/oder Satzzeichen kann zum Beispiel je nach Kontext, Verfasser, Sprache des Verfassers, Standort des Verfassers und/oder Herkunft des Verfassers unterschiedliche Bedeutungen aufweisen. Das KI-Modell 216 kann die Textdaten 220 basierend auf Kontext, Verfasser, Sprache des Verfassers, Standort des Verfassers und/oder Herkunft des Verfassers analysieren und die Bedeutung der Textdaten 220 bestimmen. Die Bedeutung der Textdaten 220 kann unter Verwenden von Handzeichen, Körpersprache, Gesten und/oder Gesichtsausdrücken in Gebärdensprache 228 übersetzt werden.
Die Audiodaten 222 können eine Anzahl von Klängen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen und/oder Zitaten beinhalten. Die Verwendung der Anzahl von Tönen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen und/oder Zitaten kann zum Beispiel unterschiedliche Bedeutungen je nach Kontext, Sprecher, Sprache des Sprechers, Ort des Sprechers und/oder Herkunft des Sprechers aufweisen. Das KI-Modell 216 kann die Audiodaten 222 basierend auf Kontext, Sprecher, Sprache des Sprechers, Standort des Sprechers und/oder Herkunft des Sprechers analysieren und die Bedeutung der Audiodaten 222 bestimmen. Die Bedeutung der Audiodaten 222 kann unter Verwenden von Handzeichen, Körpersprache, Gesten und/oder Gesichtsausdrücken in Gebärdensprache 228 übersetzt werden.
Die Videodaten 224 können eine Anzahl von Klängen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten, Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücken beinhalten. Die Verwendung der Anzahl von Klängen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten, Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücken kann beispielsweise je nach Kontext, Ausführer, Sprache des Ausführers, Ort des Ausführers und/oder Herkunft des Ausführers unterschiedliche Bedeutungen aufweisen. Das KI-Modell 216 kann die Videodaten 224 basierend auf Kontext, Ausführer, Sprache des Ausführers, Ort des Ausführers und/oder Herkunft des Ausführers analysieren und die Bedeutung der Videodaten 224 bestimmen. Die Bedeutung der Videodaten 224 kann unter Verwenden von Handzeichen, Körpersprache, Gesten und/oder Gesichtsausdrücken in Gebärdensprache 228 übersetzt werden.
Die Verwendung einer Anzahl von Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücken beim Ausführen der Gebärdensprache 228 kann je nach Kontext, Ausführer, Ort des Ausführers und/oder Herkunft des Ausführers unterschiedliche Bedeutungen aufweisen. Das KI-Modell 216 kann die Gebärdensprache 228 basierend auf dem Kontext, Ausführer, Standort des Ausführers und/oder der Herkunft des Ausführers analysieren und die Bedeutung der Gebärdensprache 228 bestimmen. Die Bedeutung der Gebärdensprache 228, einschließlich der Bedeutung der Körpersprache, Gesten und/oder Gesichtsausdrücke, kann in Textdaten 220, Audiodaten 222 und/oder Videodaten 224 übersetzt werden.
3 veranschaulicht ein beispielhaftes Ablaufdiagramm zum Lehren eines KI-Modells 316, um Gebärdensprache umzuwandeln, gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Das KI-Modell 316 kann dem KI-Modell 116 in 1 und/oder dem KI-Modell 216 in 2 entsprechen.
Vor dem Umwandeln der Gebärdensprache in Textdaten, Sprachdaten und/oder Videodaten oder dem Umwandeln von Textdaten, Sprachdaten und/oder Videodaten in eine andere Gebärdensprache kann das KI-Modell 316 auf und/oder außerhalb der Rechenvorrichtung (z. B. Rechenvorrichtung 100 in 1) trainiert werden. Das KI-Modell 316 kann trainiert werden, um Klänge, Pausen, Stimmlagen, Stimmtöne, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronyme, Wörter, Slang-Wörter, Phrasen, Redewendungen, Sätze, Zitate, Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücke zu identifizieren und sie in Textdaten, Audiodaten und/oder Videodaten in derselben oder einer anderen Sprache zu übersetzen.
Das KI-Modell 316 kann Daten für das Training empfangen. Bei einigen Beispielen können Übersetzungsdaten (z. B. Text-zu-Sprache- und/oder Sprache-zu-TextDaten) in das KI-Modell 316 eingegeben und zum Trainieren des KI-Modells 316 verwendet werden. Daten können von der Benutzeroberfläche 306, der Kamera 310 und/oder dem Sensor 312, die jeweils der Benutzeroberfläche 106, der Kamera 110 und/oder dem Sensor 112 in 1 entsprechen, empfangen werden. Diese Daten können in das KI-Modell 316 eingegeben und verwendet werden, um das KI-Modell 316 so zu trainieren, dass es an den Benutzer angepasst wird.
Beispielsweise kann ein Bild auf der Benutzeroberfläche 306 angezeigt werden. Als Reaktion auf das Anzeigen des Bilds auf der Benutzeroberfläche 306 kann eine Signalisierung, die Videodaten darstellt, über die Kamera 310 empfangen werden. Die Videodaten können einen Buchstaben, ein Wort, eine Phrase, einen Satz und/oder eine Aussage in einer Gebärdensprache beinhalten. Bei einigen Beispielen können die Videodaten und die das Bild darstellenden Daten im Speicher (z. B. Speicher 108 in 1) gespeichert werden. Die Videodaten und die das Bild darstellenden Daten können in das KI-Modell 316 eingegeben werden, um das KI-Modell 316 zu trainieren. Beispielsweise kann das KI-Modell 316 einen Befehl, der ein Bild beinhaltet, an die Benutzeroberfläche 306 übertragen, um das Bild auf der Benutzeroberfläche 306 anzuzeigen. Das Bild kann beispielsweise ein Bild eines Hundes sein. Ein Benutzer kann das Wort „Hund“ in seiner bevorzugten Gebärdensprache signieren, und die Kamera 310 kann die Videodaten aufzeichnen und an das KI-Modell 316 übertragen. Das KI-Modell 316 kann das Bild des Hundes mit seinem entsprechenden Zeichen, das vom Benutzer bereitgestellt wird, abgleichen. Bei einigen Beispielen kann das KI-Modell 316 in der Lage sein zu bestimmen, welche Gebärdensprache der Benutzer verwendet, indem es in einer Zeichenbibliothek nach dem Handzeichen sucht, das der Benutzer für das Wort „Hund“ bereitgestellt hat.
Als Reaktion darauf, dass das KI-Modell 316 Textdaten, Audiodaten oder Videodaten, die das Wort „Hund“ beinhalten, empfängt, kann das KI-Modell 316 Videodaten erzeugen, die Anweisungen zur Anzeige einer Ausführung von Gebärdensprache, einschließlich Körpersprache, Gesten und/oder Gesichtsausdrücken, die mit dem Wort „Hund“ assoziiert sind, umfassen. Als Reaktion darauf, dass das KI-Modell 316 Videodaten, die Gebärdensprache des Wortes „Hund“ beinhalten, empfängt, kann das KI-Modell 316 Textdaten, Audiodaten und/oder Videodaten, die dem Wort „Hund“ entsprechen, erzeugen.
Bei einigen Beispielen können Benutzereinstellungen (z. B. Benutzereinstellungen 114 in 1) und/oder Sensordaten in das KI-Modell 316 eingegeben und verwendet werden, um das KI-Modell 316 zu trainieren. Wie zuvor in Verbindung mit 1 beschrieben, können die Benutzeroberfläche 306 und/oder die Kamera 310 Benutzereinstellungen empfangen. Die Benutzereinstellungen können beispielsweise bestimmen, in welche Sprache Textdaten, Audiodaten und/oder Videodaten umgewandelt werden. Benutzereinstellungen können auch von Sensordaten abgeleitet werden. Die Sensordaten können von einer oder mehreren Rechenvorrichtungen stammen.
Beispielsweise kann das KI-Modell 316 einen Standort eines Benutzers einer Rechenvorrichtung in Deutschland empfangen, wenn der Sensor ein globales Positionssystem (GPS) ist, und bestimmen, dass die Sprache des Benutzers Deutsch ist. Dementsprechend kann das KI-Modell 316 empfangene Textdaten, Audiodaten und/oder Videodaten von einer anderen Rechenvorrichtung ins Deutsche übersetzen und die empfangenen Textdaten, Audiodaten und/oder Videodaten auf Deutsch anzeigen. Bei einigen Beispielen kann die andere Rechenvorrichtung Sensordaten, beispielsweise einen Standort eines Benutzers der anderen Rechenvorrichtung in Frankreich, an die Rechenvorrichtung übertragen. Dementsprechend kann das KI-Modell 316 Textdaten, Audiodaten und/oder Videodaten, die durch den Benutzer der Rechenvorrichtung erstellt wurden, ins Französische übersetzen und die übersetzten Textdaten, Audio- und/oder Videodaten an die andere Rechenvorrichtung übertragen.
4 ist ein Ablaufdiagramm eines Verfahrens 450 zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Bei Block 452 kann das Verfahren 450 das Empfangen an einer Verarbeitungsressource einer Rechenvorrichtung über ein Funkgerät der Rechenvorrichtung beinhalten, die mindestens eines von Textdaten, Audiodaten oder Videodaten oder eine beliebige Kombination davon beinhaltet. Die Rechenvorrichtung kann Daten über ein Funkgerät empfangen und/oder übertragen. Das Funkgerät kann über eine Netzwerkbeziehung kommunizieren, über die die Rechenvorrichtung mit einem oder mehreren anderen Rechenvorrichtungen, tragbaren Vorrichtungen, Telefonen, Sensoren, smarten Assistenten und/oder Cloud-Computing-Vorrichtungen kommuniziert.
Bei Block 454 kann das Verfahren 450 das Umwandeln an der Verarbeitungsressource von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten in Daten, die eine Gebärdensprache darstellen, beinhalten. Bei einigen Beispielen kann die Verarbeitung natürlicher Sprache (Natural Language Processing - NLP) zum Umwandeln der Textdaten, Audiodaten und/oder Videodaten in Daten, die die Gebärdensprache darstellen, verwendet werden.
Bei Block 456 kann das Verfahren 450 das Erzeugen anderer Videodaten an der Verarbeitungsressource beinhalten, die mindestens zum Teil auf den Daten basieren, die die Gebärdensprache darstellen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen. Die Ausführung der Gebärdensprache kann durch einen oder mehrere Avatare erfolgen.
Bei Block 458 kann das Verfahren 450 das Übertragen einer zweiten Signalisierung, die die anderen Videodaten von der Verarbeitungsressource an eine Benutzeroberfläche darstellt, beinhalten. Die Benutzeroberfläche kann durch die Rechenvorrichtung als Reaktion auf das Empfangen einer Signalisierung von der Verarbeitungsressource erzeugt werden.
Bei Block 460 kann das Verfahren 450 das Anzeigen der Ausführung der Gebärdensprache auf der Benutzeroberfläche als Reaktion darauf, dass die Benutzeroberfläche die zweite Signalisierung empfängt, beinhalten. Bei einer Anzahl von Ausführungsformen können die Textdaten, die Audiodaten und/oder die Videodaten und die anderen Videodaten gleichzeitig auf der Benutzeroberfläche angezeigt werden.
Obwohl hierin spezifische Ausführungsformen veranschaulicht und beschrieben wurden, wird der Durchschnittsfachmann verstehen, dass eine Anordnung, die zum Erzielen der gleichen Ergebnisse ausgelegt ist, an die Stelle der spezifischen gezeigten Ausführungsformen treten kann. Diese Offenbarung soll Anpassungen oder Variationen einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung abdecken. Es versteht sich, dass die obige Beschreibung veranschaulichend und nicht einschränkend verfasst wurde. Kombinationen der vorstehenden Ausführungsformen und anderer Ausführungsformen, die nicht spezifisch hierin beschrieben sind, werden nach der Lektüre der vorstehenden Beschreibung für den Fachmann auf der Hand liegen. Der Umfang der einen oder mehreren Ausführungsformen der vorliegenden Offenbarung beinhaltet andere Anwendungen, in denen die vorstehenden Strukturen und Verfahren verwendet werden. Daher sollte der Umfang von einer oder mehreren Ausführungsformen der vorliegenden Offenbarung unter Bezugnahme auf die beigefügten Ansprüche bestimmt werden, gemeinsam mit der vollständigen Spanne an Äquivalenten, zu denen derartige Ansprüche berechtigt sind.
In der vorstehenden detaillierten Beschreibung sind verschiedene Merkmale in einer einzelnen Ausführungsform zusammen gruppiert, um die Offenbarung knapper zu gestalten. Dieses Verfahren der Offenbarung soll nicht die Absicht reflektieren, dass die offenbarten Ausführungsformen der vorliegenden Offenbarung mehr Merkmale verwenden müssen als jeweils in jedem Anspruch aufgeführt. Vielmehr liegt der erfinderische Gegenstand, wie die nachfolgenden Ansprüche zeigen, in weniger als allen Merkmalen einer einzelnen offenbarten Ausführungsform. Somit werden die folgenden Ansprüche hiermit in die detaillierte Beschreibung aufgenommen, wobei jeder Anspruch für sich als separate Ausführungsform steht.

Claims

Verfahren, Folgendes umfassend: Empfangen an einer Verarbeitungsressource (104), einer Rechenvorrichtung (100) über ein Funkgerät (102) der Rechenvorrichtung einer ersten Signalisierung, die mindestens eines von Textdaten (220), Audiodaten (222) oder Videodaten (224) oder eine beliebige Kombination davon beinhaltet; Umwandeln an der Verarbeitungsressource von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten in Daten, die eine Gebärdensprache darstellen (228); Erzeugen an der Verarbeitungsressourcen von anderen Videodaten mindestens zum Teil basierend auf den Daten, die die Gebärdensprache darstellen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen; Übertragen einer zweiten Signalisierung, die die anderen Videodaten darstellt, von der Verarbeitungsressource zu einer Benutzeroberfläche (106, 306); und Anzeigen der Ausführung der Gebärdensprache auf der Benutzeroberfläche als Reaktion darauf, dass die Benutzeroberfläche die zweite Signalisierung empfängt.
Verfahren nach Anspruch 1, das ferner das gleichzeitige Anzeigen von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon umfasst, und wobei die anderen Videodaten die gleichzeitige Ausführung der Gebärdensprache auf der Benutzeroberfläche beinhalten.
Verfahren nach Anspruch 1, ferner Folgendes umfassend: Empfangen an der Verarbeitungsressource einer dritten Signalisierung, die Daten, die Benutzereinstellungen (114) darstellen, beinhaltet; und Erzeugen an der Verarbeitungsressource der anderen Videodaten mindestens zum Teil basierend auf den Daten, die die Benutzereinstellungen darstellen.
Verfahren nach Anspruch 3, ferner Folgendes umfassend: Empfangen über eine Kamera (110, 310) von Daten, die die Benutzereinstellungen in Gebärdensprache darstellen; und Übertragen der dritten Signalisierung einschließlich der Daten, die die Benutzereinstellungen darstellen, von der Kamera an die Verarbeitungsressource.
Verfahren nach Anspruch 3, ferner Folgendes umfassend: Empfangen einer Auswahl der Benutzereinstellungen auf der Benutzeroberfläche; und Übertragen der dritten Signalisierung, die die Daten darstellen, beinhaltet, von der Benutzeroberfläche an die Verarbeitungsressource.
Verfahren nach Anspruch 3, ferner Folgendes umfassend: Empfangen von Sensordaten von einem Sensor (112, 312); und Erzeugen der Daten, die die Benutzereinstellungen darstellen, mindestens zum Teil basierend auf den Sensordaten.
Verfahren nach Anspruch 1, ferner Folgendes umfassend: Empfangen einer dritten Signalisierung, die Videodaten eines Benutzers beinhaltet, über die Kamera; und Erzeugen der anderen Videodaten an der Verarbeitungsressource mindestens zum Teil basierend auf den Videodaten des Benutzers.
Verfahren nach Anspruch 1, das ferner das Erzeugen der anderen Videodaten durch Ausführen eines Vorgangs künstlicher Intelligenz (KI) an den Daten, die die Gebärdensprache darstellen, unter Verwenden eines KI-Modells (116, 216, 316) umfasst.
Verfahren nach Anspruch 1, ferner Folgendes umfassend: Umwandeln an der Verarbeitungsressource von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon in Daten, die einen Gesichtsausdruck darstellen; und Erzeugen an der Verarbeitungsressource der anderen Videodaten mindestens zum Teil basierend auf den Daten, die den Gesichtsausdruck darstellen, wobei das andere Video Anweisungen zur Anzeige des Gesichtsausdrucks umfasst.
Verfahren nach Anspruch 1, ferner Folgendes umfassend: Empfangen über das Funkgerät einer dritten Signalisierung, die die Sensordaten von einer anderen Rechenvorrichtung beinhaltet; und Erzeugen an der Verarbeitungsressource der anderen Videodaten mindestens zum Teil basierend auf den Sensordaten von der anderen Rechenvorrichtung.
Einrichtung, Folgendes umfassend: eine Kamera (110, 310); ein Funkgerät (102); und eine Verarbeitungsressource (104), die mit der Kamera und dem Funkgerät gekoppelt ist, wobei die Verarbeitungsressource dazu konfiguriert ist: über die Kamera eine erste Signalisierung zu empfangen, die Videodaten (224) darstellt, die mindestens eines von einem Buchstaben, einem Wort, einer Phrase, einem Satz oder eine Aussage oder eine beliebige Kombination davon in einer Gebärdensprache (228) beinhalten; die Videodaten in mindestens eines von Textdaten (220), Audiodaten (222) oder anderen Videodaten oder eine beliebige Kombination davon umzuwandeln; und über das Funkgerät eine zweite Signalisierung zu übertragen, die mindestens eines von den Textdaten, den Audiodaten oder den anderen Videodaten oder eine beliebige Kombination davon beinhaltet.
Einrichtung nach Anspruch 11, wobei die erste Signalisierung, die die Videodaten darstellt, mindestens eines von Körpersprache, Gesten oder Gesichtsausdrücken oder eine beliebige Kombination davon beinhaltet.
Einrichtung nach Anspruch 11, wobei die Audiodaten eine Stimmlage beinhalten, die mindestens zum Teil auf den Videodaten basiert.
Einrichtung nach Anspruch 11, wobei die Verarbeitungsressource dazu konfiguriert ist, die Videodaten in mindestens eines von den Textdaten, den Audiodaten oder den anderen Videodaten oder eine beliebige Kombination davon in einer jeweiligen Sprache umzuwandeln.
Einrichtung nach Anspruch 14, wobei die Verarbeitungsressource dazu konfiguriert ist: eine dritte Signalisierung, die eine Nachricht darstellt, zu empfangen; die jeweilige Sprache der Nachricht zu bestimmen; und die Videodaten in mindestens eines von den Textdaten, den Audiodaten oder den anderen Videodaten oder eine beliebige Kombination davon in der jeweiligen Sprache als Reaktion auf das Bestimmen der jeweiligen Sprache der Nachricht umzuwandeln.
Einrichtung, Folgendes umfassend: einen Speicher (108); eine Benutzeroberfläche (106, 306); ein Funkgerät (102); eine Kamera (110, 310); und eine Verarbeitungsressource (104), die mit dem Speicher, der Benutzeroberfläche, dem Funkgerät und der Kamera gekoppelt ist, wobei die Verarbeitungsressource dazu konfiguriert ist: ein Bild auf der Benutzeroberfläche anzuzeigen; über die Kamera eine erste Signalisierung, die Videodaten darstellt, die mindestens einen Buchstaben, ein Wort, eine Phrase, einen Satz oder eine Aussage oder eine beliebige Kombination davon beinhalten, in einer Gebärdensprache (228), als Reaktion auf das Anzeigen des Bildes auf der Benutzeroberfläche zu empfangen; die Videodaten und Daten, die das Bild darstellen, in dem Speicher zu speichern; ein Modell (116, 216, 316) künstlicher Intelligenz (KI) zu trainieren, indem sie die Videodaten und die Daten, die das Bild darstellen, in das KI-Modell eingibt; an der Verarbeitungsressource über das Funkgerät eine zweite Signalisierung zu empfangen, die mindestens eines von Textdaten (220), Audiodaten (222) oder Videodaten (224) oder eine beliebige Kombination davon beinhaltet; Videodaten zu erzeugen, wobei die Videodaten Anweisungen zur Anzeige einer Ausführung von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon in Gebärdensprache durch Eingeben von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon in das KI-Modell umfassen; und Anzeige der Videodaten auf der Benutzeroberfläche.
Einrichtung nach Anspruch 16, wobei die Benutzeroberfläche auf mindestens einem von einer Anzeige oder einem Hologramm oder einer beliebigen Kombination davon gezeigt wird.
Einrichtung nach Anspruch 16, wobei die Videodaten Anweisungen zur Anzeige einer Ausführung von mindestens einem von Körpersprache, Gesten oder Gesichtsausdrücken oder einer beliebigen Kombination davon umfassen.
Einrichtung nach Anspruch 16, wobei die Verarbeitungsressource dazu konfiguriert ist, das KI-Modell durch Eingeben von Benutzereinstellungen (114) zu trainieren.
Einrichtung nach Anspruch 16, wobei die Verarbeitungsressource dazu konfiguriert ist, das KI-Modell durch Eingabe von Sensordaten zu trainieren.