DE102022107251A1 - Umwandeln von Gebärdensprache - Google Patents

Umwandeln von Gebärdensprache Download PDF

Info

Publication number
DE102022107251A1
DE102022107251A1 DE102022107251.7A DE102022107251A DE102022107251A1 DE 102022107251 A1 DE102022107251 A1 DE 102022107251A1 DE 102022107251 A DE102022107251 A DE 102022107251A DE 102022107251 A1 DE102022107251 A1 DE 102022107251A1
Authority
DE
Germany
Prior art keywords
data
video data
processing resource
representing
sign language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022107251.7A
Other languages
English (en)
Inventor
Ariela E. Gruszka
Angela S. Parekh
Mandy W. Fortunati
Teresa M. Di Dio
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Micron Technology Inc
Original Assignee
Micron Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Micron Technology Inc filed Critical Micron Technology Inc
Publication of DE102022107251A1 publication Critical patent/DE102022107251A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/04Devices for conversing with the deaf-blind
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/10Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations all student stations being capable of presenting the same information simultaneously
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Educational Technology (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

Es sind Verfahren und Vorrichtungen zur Umwandlung von Gebärdensprache beschrieben. Bei einem Beispiel kann ein Verfahren das Empfangen, an einer Verarbeitungsressource einer Rechenvorrichtung über ein Funkgerät der Rechenvorrichtung, einer ersten Signalisierung, wobei die erste Signalisierung mindestens eines von Textdaten, Audiodaten oder Videodaten oder eine beliebige Kombination davon beinhaltet, das Umwandeln, an der Verarbeitungsressource, von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten in Daten, die eine Gebärdensprache darstellen, das Erzeugen, an der Verarbeitungsressource, anderer Videodaten, die mindestens zum Teil auf den Daten basieren, die die Gebärdensprache darstellen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen, das Übertragen einer zweiten Signalisierung, die die anderen Videodaten darstellt, von der Verarbeitungsressource zu einer Benutzeroberfläche und das Anzeigen der Ausführung der Gebärdensprache auf der Benutzeroberfläche als Reaktion darauf, dass die Benutzeroberfläche die zweite Signalisierung empfängt, beinhalten.

Description

  • Technisches Gebiet
  • Die vorliegende Offenbarung betrifft allgemein das Umwandeln von Gebärdensprache.
  • Hintergrund
  • Eine Rechenvorrichtung kann beispielsweise ein Smartphone, eine tragbare Vorrichtung, ein Tablet, ein Laptop, ein Desktop-Computer oder eine Smart-Assistant-Vorrichtung sein. Die Rechenvorrichtung kann Daten empfangen und/oder übertragen und kann eine oder mehrere Speichervorrichtungen beinhalten oder mit diesen gekoppelt sein. Speichervorrichtungen werden typischerweise als interne, integrierte Halbleiterschaltkreise in Computern oder anderen elektronischen Systemen bereitgestellt. Es gibt viele unterschiedliche Arten von Speicher, darunter flüchtigen und nichtflüchtigen Speicher. Flüchtiger Speicher kann Strom benötigen, um seine Daten (z. B. Hostdaten, Fehlerdaten usw.), und beinhaltet unter anderem Direktzugriffsspeicher (RAM), dynamischen Direktzugriffsspeicher (DRAM), statischen Direktzugriffsspeicher (SRAM), synchronen dynamischen Direktzugriffsspeicher (SDRAM) und Thyristor-Direktzugriffsspeicher (TRAM). Nichtflüchtiger Speicher kann persistente Daten bereitstellen, indem er gespeicherte Daten aufbewahrt, wenn er nicht mit Strom versorgt wird, und kann NAND-Flash-Speicher, NOR-Flash-Speicher und widerstandsvariablen Speicher, wie Phasenwechsel-Direktzugriffsspeicher (PCRAM), resistiven Direktzugriffsspeicher (RRAM) und magnetoresistiven Direktzugriffsspeicher (MRAM), wie unter anderem einen Spin-Torque-Transfer-Direktzugriffsspeicher (STT RAM), beinhalten.
  • Figurenliste
    • 1 veranschaulicht ein Beispiel einer Rechenvorrichtung zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.
    • 2 veranschaulicht ein Beispiel eines Ablaufdiagramms zum Umwandeln von Gebärdensprache unter Verwenden eines KI-Modells gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.
    • 3 veranschaulicht ein Beispiel eines Ablaufdiagramms zum Lehren eines KI-Modells, um Gebärdensprache umzuwandeln, gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.
    • 4 ist ein Ablaufdiagramm eines Verfahrens zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung.
  • Ausführliche Beschreibung
  • Die vorliegende Offenbarung beinhaltet Verfahren und Einrichtungen in Bezug auf das Empfangen von Textdaten, Audiodaten und/oder Videodaten, das Umwandeln der Textdaten, der Audiodaten und/oder der Videodaten in Daten, die eine Gebärdensprache darstellen, und das Erzeugen anderer Videodaten, die mindestens zum Teil auf den Daten, die Gebärdensprache darstellen, basieren. Bei einigen Beispielen können die Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache auf einer Benutzeroberfläche beinhalten.
  • Häufig bieten Medienplattformen Untertitel an, jedoch ziehen einige in der Gehörlosen-Gemeinschaft, einschließlich vorsprachlicher Gehörloser, die Gebärdensprache der Untertitelung vor. Dementsprechend kann das Anzeigen der Ausführung der Gebärdensprache von einem Benutzer an Stelle von oder in Kombination mit Untertitelung bevorzugt werden.
  • Es gibt über 100 unterschiedliche Gebärdensprachen auf der Welt, und Gebärdensprachen können sich je nach Land und/oder Region unterscheiden. Körpersprache, Gesichtsausdrücke und/oder Gesten können bei der Kommunikation in vielen Gebärdensprachen eine wichtige Rolle spielen. Unter Umständen sind Untertitel nicht in der Lage, Körpersprache, Gesichtsausdrücke und/oder Gesten genau wiederzugeben. Daher kann das Ausführen von Gebärdensprache, einschließlich Körpersprache, Gesichtsausdrücken und/oder Gesten, genauer sein als Untertitelung.
  • Ebenso können beim Umwandeln von Gebärdensprache in Text, Audio und/oder Video in einer anderen Sprache Kommunikationshinweise fehlen, die vom Gebärdensprachebenutzer über Körpersprache, Gesichtsausdrücke und/oder Gesten bereitgestellt werden, die für den Gebärdensprachebenutzer und/oder für die Gebärdensprache spezifisch sein können. Das Erkennen und Integrieren dieser Hinweise in Text, Audio und/oder Video in einer anderen Sprache kann eine genauere Kommunikation und weniger Fehlinformationen und/oder Missverständnisse ermöglichen.
  • Einem Modell der künstlichen Intelligenz (KI) kann beigebracht werden, genau zwischen Gebärdensprache und einer anderen Sprache umzuwandeln. Beispielsweise kann das KI-Modell die Sprache, Stimmlagen, Wortwahl, Körpersprache, Gesichtsausdrücke und/oder Gesten eines Benutzers lernen und interpretieren und an andere übermitteln. Das KI-Modell kann auch Sprache, Stimmlagen, Wortwahl, Körpersprache, Gesichtsausdrücke und/oder Gesten anderer lernen und interpretieren, um ihre Kommunikationen an den Benutzer genau zu übermitteln. Bei einigen Beispielen können die Textdaten, die Audiodaten und/oder die Videodaten in Daten umgewandelt werden, die eine Gebärdensprache darstellen und die die anderen Videodaten erzeugen, die die Anweisungen für die Anzeige der Ausführung der Gebärdensprache als Reaktion auf das Ausführen eines KI-Vorgangs an den Textdaten, den Audiodaten und/oder den Videodaten umfassen.
  • Wie hierin verwendet, kann sich „eine Anzahl von“ etwas auf eines oder mehrere solcher Dinge beziehen. Eine „Vielzahl“ von etwas bedeutet zwei oder mehr. Die Figuren hierin folgen einer Nummerierungskonvention, bei der die erste Ziffer oder Ziffern der Figurenzeichnungsnummer entsprechen und die verbleibenden Ziffern ein Element oder eine Komponente in der Figur identifizieren. Gleichartige Elemente oder Komponenten zwischen unterschiedlichen Figuren können durch Verwendung gleichartiger Ziffern identifiziert werden. Zum Beispiel kann das Bezugszeichen 216 das Element „16“ in 2 referenzieren, und ein ähnliches Element kann in 3 als 316 bezeichnet werden. In einigen Fällen kann eine Vielzahl ähnlicher, aber funktionell und/oder strukturell unterscheidbarer Elemente oder Komponenten in derselben Figur oder in unterschiedlichen Figuren nacheinander mit derselben Elementnummer bezeichnet werden. Es versteht sich, dass Elemente, die in den verschiedenen Ausführungsformen hierin gezeigt sind, hinzugefügt, ausgetauscht und/oder weggelassen werden können, um eine Anzahl zusätzlicher Ausführungsformen der vorliegenden Offenbarung bereitzustellen. Zusätzlich sollen die Proportion und der relative Maßstab der in den Figuren bereitgestellten Elemente verschiedene Ausführungsformen der vorliegenden Offenbarung veranschaulichen und nicht in einem einschränkenden Sinne verwendet werden.
  • 1 veranschaulicht ein Beispiel einer Rechenvorrichtung 100 zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Die Rechenvorrichtung 100 kann ein Smartphone, eine tragbare Vorrichtung, ein Tablet, ein Laptop, ein Desktop-Computer, eine Smart-Assistant-Vorrichtung, ein Fernsehgerät oder eine beliebige Kombination davon sein, ist aber nicht darauf beschränkt.
  • Ein Funkgerät 102, eine Verarbeitungsressource 104, eine Benutzeroberfläche 106, ein Speicher 108, eine Kamera 110 und/oder ein Sensor 112 können in der Rechenvorrichtung 100 beinhaltet und/oder damit gekoppelt sein. Die Rechenvorrichtung 100 kann Daten über drahtgebundene und/oder drahtlose Übertragungen unter Verwenden einer Kommunikationsvorrichtung (z. B. einer Zwischenvorrichtung), wie etwa, aber nicht beschränkt auf ein Funkgerät 102, empfangen und/oder übertragen. Das Funkgerät 102 kann es durch Signalisieren (z. B. Funksignale) und/oder eine Netzwerkbeziehung der Rechenvorrichtung 100 ermöglichen, mit einer oder mehreren anderen Rechenvorrichtungen, tragbaren Vorrichtungen, Telefonen, Sensoren, smarten Assistenten und/oder Cloud-Computing-Vorrichtungen zu kommunizieren. Beispiele für eine derartige Netzwerkbeziehung können, neben anderen Arten von Netzwerkbeziehungen, Bluetooth, AirDrop, ein Peer-to-Peer-Wi-Fi-Netzwerk, ein Mobilfunknetz, eine verteilte Computing-Umgebung (z. B. eine Cloud-Computing-Umgebung), ein Wide Area Network (WAN) wie das Internet, ein Local Area Network (LAN), ein Personal Area Network (PAN), ein Campus Area Network (CAN) oder ein Metropolitan Area Network (MAN) beinhalten.
  • Der Speicher 108 kann flüchtigen und/oder nichtflüchtigen Speicher, beispielsweise DRAM, NAND und/oder 3D-Crosspoint, beinhalten. Der Speicher 108 kann mit der Verarbeitungsressource 104 gekoppelt sein und kann Benutzereinstellungen 114 und ein KI-Modell 116 speichern. Der Speicher 108 kann eine beliebige Art von Speichermedium sein, auf das die Verarbeitungsressource 104 zugreifen kann, um verschiedene Beispiele der vorliegenden Offenbarung auszuführen. Beispielsweise kann der Speicher 108 ein nichtflüchtiges computerlesbares Medium mit darauf gespeicherten computerlesbaren Anweisungen (z. B. Computerprogrammanweisungen) sein, die durch die Verarbeitungsressource 104 ausführbar sind, um an der Verarbeitungsressource 104 der Rechenvorrichtung 100 über das Funkgerät 102 der Rechenvorrichtung 100 erste Signalisierung zu empfangen, die mindestens eine von Textdaten, Audiodaten, Videodaten oder eine beliebige Kombination davon beinhaltet, an der Verarbeitungsressource 104 mindestens eine der Textdaten, der Audiodaten oder der Videodaten oder eine beliebige Kombination davon in Daten umzuwandeln, die eine Gebärdensprache darstellen, an der Verarbeitungsressource 104 andere Videodaten mindestens zum Teil basierend auf den Daten, die die Gebärdensprache darstellen, zu erzeugen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen, eine zweite Signalisierung, die die anderen Videodaten darstellt, von der Verarbeitungsressource 104 an die Benutzeroberfläche 106 zu übertragen und die Ausführung der Gebärdensprache auf der Benutzeroberfläche 106 als Reaktion darauf, dass die Benutzeroberfläche 106 die zweite Signalisierung empfängt, anzuzeigen.
  • Bei einigen Beispielen können die Textdaten, die Audiodaten und/oder die Videodaten und die anderen Videodaten einschließlich der Ausführung der Gebärdensprache gleichzeitig auf der Benutzeroberfläche 106 angezeigt werden. Die Ausführung der Gebärdensprache kann durch einen oder mehrere Avatare (z. B. Deepfakes) ausgeführt werden. Der eine oder die mehreren Avatare können berühmte Personen, Charaktere, den Benutzer der Rechenvorrichtung 100 oder bekannte assoziierte Personen (z. B. Familie, Freunde, Kollegen, Bekannte) des Benutzers beinhalten. Falls beispielsweise ein Freund Textdaten an den Benutzer gesandt hat, kann der Freund der Avatar sein, der die Nachricht an den Benutzer auf der Benutzeroberfläche 106 signiert. Bei einigen Beispielen kann der Benutzer ein Video ansehen (z. B. einen Film, eine Fernsehsendung und/oder einen Videoclip), und ein oder mehrere Avatare können in der Ecke des Bildschirms beinhaltet sein. Wenn zum Beispiel eine Schauspielerin in einem Film spricht, kann ein Avatar der Schauspielerin angezeigt werden, der signiert, was sie dem Benutzer auf der Benutzeroberfläche 106 sagt. Wenn die Schauspielerin nicht mehr spricht, kann der Avatar der Schauspielerin von der Benutzeroberfläche 106 entfernt werden. Bei einigen Beispielen können mehrere Avatare, die ihren jeweiligen Figuren entsprechen, Gebärdensprache ausführen, wenn es mehrere Figuren in einer Szene gibt.
  • Die Benutzeroberfläche 106 kann durch die Rechenvorrichtung 100 als Reaktion auf das Empfangen einer Signalisierung von der Verarbeitungsressource 104 erzeugt werden. Die Benutzeroberfläche 106 kann eine grafische Benutzeroberfläche (Graphical User Interface - GUI) sein, die dem Benutzer der Rechenvorrichtung 100 Informationen bereitstellen und/oder von diesem empfangen kann. Bei einer Anzahl von Ausführungsformen kann die Benutzeroberfläche 106 auf einem Fernsehgerät und/oder einer Anzeige und/oder einem Hologramm der Rechenvorrichtung 100 gezeigt werden.
  • Ein Benutzer kann über die Benutzeroberfläche 106 Daten empfangen und/oder Auswahlen (z. B. Befehle) übertragen. Zum Beispiel kann die Benutzeroberfläche 106 eine Anzahl von Optionen anzeigen, und die Benutzeroberfläche 106 kann eine Auswahl einer oder mehrerer der Anzahl von Optionen als Reaktion darauf empfangen, dass der Benutzer die eine oder mehreren Optionen auf der Benutzeroberfläche 106 auswählt. Bei einigen Beispielen kann die Benutzeroberfläche 106 eine Eingabe von Benutzereinstellungen 114 und/oder eine Auswahl von Benutzereinstellungen 114 empfangen, und die Benutzeroberfläche 106 kann eine Signalisierung einschließlich von Daten, die die Benutzereinstellungen 114 darstellen, an die Verarbeitungsressource 104 übertragen. Bei einer Anzahl von Ausführungsformen kann die Kamera 110 die Benutzereinstellungen 114 in Gebärdensprache empfangen und eine Signalisierung, einschließlich der Daten, die die Benutzereinstellungen 114 darstellen, an die Verarbeitungsressource 104 übertragen. Die Kamera 110 kann eine Fotokamera, eine Videokamera und/oder ein Bildsensor sein und kann Fotos und/oder Videos aufnehmen.
  • Benutzereinstellungen 114 können auch von Sensordaten von dem Sensor 112 abgeleitet werden. Die Sensordaten können von dem Sensor 112 an die Verarbeitungsressource 104 übertragen werden, und die Verarbeitungsressource 104 kann die Daten, die die Benutzereinstellungen 114 darstellen, mindestens zum Teil basierend auf den Sensordaten erzeugen. Beispielsweise kann ein Standort der Rechenvorrichtung 100 als Reaktion darauf bestimmt werden, dass der Sensor ein globales Positionssystem (GPS) ist. Falls beispielsweise die Sensordaten von dem Sensor 112 Standortdaten übertragen, die angeben, dass sich die Rechenvorrichtung 100 in den Vereinigten Staaten befindet, kann die Verarbeitungsressource 104 bestimmen, dass die Spracheinstellung in den Benutzereinstellungen 114 auf Englisch programmiert werden sollte.
  • Bei einigen Beispielen können die Benutzereinstellungen 114 als Reaktion darauf, dass die Verarbeitungsressource 104 die Benutzereinstellungen 114 empfängt, im Speicher 108 gespeichert werden. Anweisungen für die Rechenvorrichtung 100 können basierend auf den Benutzereinstellungen 114 angelegt und ausgeführt werden. Beispielsweise kann die Verarbeitungsressource 104 die anderen Videodaten mindestens zum Teil basierend auf den Daten, die die Benutzereinstellungen 114 darstellen, erzeugen.
  • Die Rechenvorrichtung 100 kann über das Funkgerät 102 eine Signalisierung empfangen, die Sensordaten von einer anderen Rechenvorrichtung beinhaltet. Die Verarbeitungsressource 104 kann die anderen Videodaten mindestens zum Teil basierend auf den Sensordaten von der anderen Rechenvorrichtung erzeugen. Beispielsweise kann eine Herzfrequenz eines anderen Benutzers der anderen Rechenvorrichtung als Reaktion darauf bestimmt werden, dass der Sensor von der anderen Rechenvorrichtung ein Herzfrequenzmonitor ist. Wenn der Sensor von der anderen Rechenvorrichtung die Herzfrequenz des anderen Benutzers mit den Textdaten, Audiodaten und/oder Videodaten an die Rechenvorrichtung 100 überträgt, kann die Verarbeitungsressource 104 bestimmen, dass der andere Benutzer ängstlich ist. Bei einer Anzahl von Ausführungsformen kann die Verarbeitungsressource 104 die anderen Videodaten zum Teil basierend auf den Sensordaten, die die Angst des anderen Benutzers darstellen, erzeugen und Anweisungen bereitstellen, um die Angst des anderen Benutzers in dem anderen Video anzuzeigen.
  • Videodaten eines Benutzers können über die Kamera 110 empfangen und an die Verarbeitungsressource 104 übertragen werden. Die Verarbeitungsressource 104 kann die anderen Videodaten mindestens zum Teil basierend auf den Videodaten des Benutzers erzeugen. Beispielsweise kann die Ausführung der Gebärdensprache Gebärdensprache, Körpersprache, Gesichtsausdrücke und/oder Gesten des Benutzers verwenden, um die Kommunikation klar und für den Benutzer leicht verständlich zu machen.
  • Bei einer Anzahl von Ausführungsformen kann die Verarbeitungsressource 104 empfangene Textdaten, Audiodaten und/oder Videodaten in Daten, die Körpersprache, Gesichtsausdrücke und/oder Gesten darstellen, umwandeln. Die Verarbeitungsressource 104 kann die anderen Videodaten mindestens zum Teil basierend auf den Daten erzeugen, die die Körpersprache, Gesichtsausdrücke und/oder Gesten darstellen, und das andere Video kann Anweisungen zur Anzeige der Körpersprache, Gesichtsausdrücke und/oder Gesten umfassen.
  • Bei einigen Beispielen kann die Verarbeitungsressource 104 über die Kamera 110 eine Signalisierung empfangen, die Videodaten darstellt, die einen Buchstaben, ein Wort, eine Phrase, einen Satz und/oder eine Aussage in einer Gebärdensprache von einem Benutzer der Rechenvorrichtung 100 beinhalten. Die Verarbeitungsressource 104 kann die Videodaten in Textdaten, Audiodaten und/oder andere Videodaten in einer jeweiligen Sprache umwandeln.
  • Die Verarbeitungsressource 104 kann über das Funkgerät 102 eine Signalisierung, die die Textdaten, Audiodaten und/oder Videodaten beinhaltet, übertragen. Bei einer Anzahl von Ausführungsformen kann die Signalisierung, die die Videodaten darstellt, Körpersprache, Gesten und/oder Gesichtsausdrücke beinhalten. Die Textdaten, Audiodaten und/oder anderen Videodaten können mindestens zum Teil auf den Videodaten basieren. Beispielsweise können die Audiodaten eine auf den Videodaten basierende Stimmlage beinhalten.
  • Bei einer Anzahl von Ausführungsformen kann die Verarbeitungsressource 104 eine Signalisierung empfangen, die Textdaten, Audiodaten und/oder Videodaten von einer anderen Rechenvorrichtung darstellt, und die jeweilige Sprache der Textdaten, Audiodaten und/oder Videodaten bestimmen. Die Verarbeitungsressource 104 kann Videodaten eines signierenden Benutzers der Rechenvorrichtung 100 empfangen und die Videodaten des signierenden Benutzers der Rechenvorrichtung 100 in Textdaten, Audiodaten und/oder andere Videodaten in der jeweiligen Sprache der Nachricht von der anderen Rechenvorrichtung umwandeln. Beispielsweise kann die Rechenvorrichtung 100 eine Nachricht von einer anderen Rechenvorrichtung empfangen, die Sprache der Nachricht bestimmen und eine Antwort an die andere Rechenvorrichtung in derselben Sprache wie die empfangene Nachricht übertragen.
  • Die Verarbeitungsressource 104 kann Komponenten beinhalten, die dazu konfiguriert sind, es der Rechenvorrichtung 100 zu ermöglichen, KI-Vorgänge auszuführen. Bei einigen Beispielen können KI-Vorgänge Trainingsvorgänge oder Inferenzvorgänge oder beides beinhalten. Bei einer Anzahl von Ausführungsformen kann das KI-Modell 116 aus der Ferne in einer Cloud unter Verwenden von Musterdaten trainiert und an die Rechenvorrichtung 100 übertragen und/oder auf der Rechenvorrichtung 100 trainiert werden. Bei einigen Beispielen können die anderen Videodaten durch Ausführen eines KI-Vorgangs an den Daten, die die Gebärdensprache darstellen, unter Verwenden des KI-Modells 116 erzeugt werden.
  • 2 veranschaulicht ein Ablaufdiagramm zum Umwandeln von Gebärdensprache unter Verwenden eines KI-Modells 216 gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Das KI-Modell 216 kann dem KI-Modell 116 in 1 entsprechen. Das KI-Modell 216 kann Text 220, Audio 222 und/oder Video 224 empfangen und den Text 220, das Audio 222 und/oder das Video 224 in Gebärdensprache 228 (z. B. anderes Video) umwandeln. Bei einigen Beispielen kann das KI-Modell 216 Gebärdensprache 228 von einer Kamera (z. B. Kamera 110 in 1) empfangen, die beispielsweise einen signierenden Benutzer aufzeichnet, und die Gebärdensprache 228 in Text 220, Audio 222 und/oder Video 224 umwandeln.
  • Die Textdaten 220 können eine Anzahl von Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten und/oder Satzzeichen beinhalten. Die Verwendung der Anzahl von Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten und/oder Satzzeichen kann zum Beispiel je nach Kontext, Verfasser, Sprache des Verfassers, Standort des Verfassers und/oder Herkunft des Verfassers unterschiedliche Bedeutungen aufweisen. Das KI-Modell 216 kann die Textdaten 220 basierend auf Kontext, Verfasser, Sprache des Verfassers, Standort des Verfassers und/oder Herkunft des Verfassers analysieren und die Bedeutung der Textdaten 220 bestimmen. Die Bedeutung der Textdaten 220 kann unter Verwenden von Handzeichen, Körpersprache, Gesten und/oder Gesichtsausdrücken in Gebärdensprache 228 übersetzt werden.
  • Die Audiodaten 222 können eine Anzahl von Klängen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen und/oder Zitaten beinhalten. Die Verwendung der Anzahl von Tönen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen und/oder Zitaten kann zum Beispiel unterschiedliche Bedeutungen je nach Kontext, Sprecher, Sprache des Sprechers, Ort des Sprechers und/oder Herkunft des Sprechers aufweisen. Das KI-Modell 216 kann die Audiodaten 222 basierend auf Kontext, Sprecher, Sprache des Sprechers, Standort des Sprechers und/oder Herkunft des Sprechers analysieren und die Bedeutung der Audiodaten 222 bestimmen. Die Bedeutung der Audiodaten 222 kann unter Verwenden von Handzeichen, Körpersprache, Gesten und/oder Gesichtsausdrücken in Gebärdensprache 228 übersetzt werden.
  • Die Videodaten 224 können eine Anzahl von Klängen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten, Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücken beinhalten. Die Verwendung der Anzahl von Klängen, Pausen, Stimmlagen, Stimmtönen, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronymen, Wörtern, Slang-Wörtern, Phrasen, Redewendungen, Sätzen, Zitaten, Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücken kann beispielsweise je nach Kontext, Ausführer, Sprache des Ausführers, Ort des Ausführers und/oder Herkunft des Ausführers unterschiedliche Bedeutungen aufweisen. Das KI-Modell 216 kann die Videodaten 224 basierend auf Kontext, Ausführer, Sprache des Ausführers, Ort des Ausführers und/oder Herkunft des Ausführers analysieren und die Bedeutung der Videodaten 224 bestimmen. Die Bedeutung der Videodaten 224 kann unter Verwenden von Handzeichen, Körpersprache, Gesten und/oder Gesichtsausdrücken in Gebärdensprache 228 übersetzt werden.
  • Die Verwendung einer Anzahl von Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücken beim Ausführen der Gebärdensprache 228 kann je nach Kontext, Ausführer, Ort des Ausführers und/oder Herkunft des Ausführers unterschiedliche Bedeutungen aufweisen. Das KI-Modell 216 kann die Gebärdensprache 228 basierend auf dem Kontext, Ausführer, Standort des Ausführers und/oder der Herkunft des Ausführers analysieren und die Bedeutung der Gebärdensprache 228 bestimmen. Die Bedeutung der Gebärdensprache 228, einschließlich der Bedeutung der Körpersprache, Gesten und/oder Gesichtsausdrücke, kann in Textdaten 220, Audiodaten 222 und/oder Videodaten 224 übersetzt werden.
  • 3 veranschaulicht ein beispielhaftes Ablaufdiagramm zum Lehren eines KI-Modells 316, um Gebärdensprache umzuwandeln, gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Das KI-Modell 316 kann dem KI-Modell 116 in 1 und/oder dem KI-Modell 216 in 2 entsprechen.
  • Vor dem Umwandeln der Gebärdensprache in Textdaten, Sprachdaten und/oder Videodaten oder dem Umwandeln von Textdaten, Sprachdaten und/oder Videodaten in eine andere Gebärdensprache kann das KI-Modell 316 auf und/oder außerhalb der Rechenvorrichtung (z. B. Rechenvorrichtung 100 in 1) trainiert werden. Das KI-Modell 316 kann trainiert werden, um Klänge, Pausen, Stimmlagen, Stimmtöne, Stimmnoten, Buchstaben, Zahlen, Zeichen, Abkürzungen, Akronyme, Wörter, Slang-Wörter, Phrasen, Redewendungen, Sätze, Zitate, Handzeichen, Gesten, Körpersprache und/oder Gesichtsausdrücke zu identifizieren und sie in Textdaten, Audiodaten und/oder Videodaten in derselben oder einer anderen Sprache zu übersetzen.
  • Das KI-Modell 316 kann Daten für das Training empfangen. Bei einigen Beispielen können Übersetzungsdaten (z. B. Text-zu-Sprache- und/oder Sprache-zu-TextDaten) in das KI-Modell 316 eingegeben und zum Trainieren des KI-Modells 316 verwendet werden. Daten können von der Benutzeroberfläche 306, der Kamera 310 und/oder dem Sensor 312, die jeweils der Benutzeroberfläche 106, der Kamera 110 und/oder dem Sensor 112 in 1 entsprechen, empfangen werden. Diese Daten können in das KI-Modell 316 eingegeben und verwendet werden, um das KI-Modell 316 so zu trainieren, dass es an den Benutzer angepasst wird.
  • Beispielsweise kann ein Bild auf der Benutzeroberfläche 306 angezeigt werden. Als Reaktion auf das Anzeigen des Bilds auf der Benutzeroberfläche 306 kann eine Signalisierung, die Videodaten darstellt, über die Kamera 310 empfangen werden. Die Videodaten können einen Buchstaben, ein Wort, eine Phrase, einen Satz und/oder eine Aussage in einer Gebärdensprache beinhalten. Bei einigen Beispielen können die Videodaten und die das Bild darstellenden Daten im Speicher (z. B. Speicher 108 in 1) gespeichert werden. Die Videodaten und die das Bild darstellenden Daten können in das KI-Modell 316 eingegeben werden, um das KI-Modell 316 zu trainieren. Beispielsweise kann das KI-Modell 316 einen Befehl, der ein Bild beinhaltet, an die Benutzeroberfläche 306 übertragen, um das Bild auf der Benutzeroberfläche 306 anzuzeigen. Das Bild kann beispielsweise ein Bild eines Hundes sein. Ein Benutzer kann das Wort „Hund“ in seiner bevorzugten Gebärdensprache signieren, und die Kamera 310 kann die Videodaten aufzeichnen und an das KI-Modell 316 übertragen. Das KI-Modell 316 kann das Bild des Hundes mit seinem entsprechenden Zeichen, das vom Benutzer bereitgestellt wird, abgleichen. Bei einigen Beispielen kann das KI-Modell 316 in der Lage sein zu bestimmen, welche Gebärdensprache der Benutzer verwendet, indem es in einer Zeichenbibliothek nach dem Handzeichen sucht, das der Benutzer für das Wort „Hund“ bereitgestellt hat.
  • Als Reaktion darauf, dass das KI-Modell 316 Textdaten, Audiodaten oder Videodaten, die das Wort „Hund“ beinhalten, empfängt, kann das KI-Modell 316 Videodaten erzeugen, die Anweisungen zur Anzeige einer Ausführung von Gebärdensprache, einschließlich Körpersprache, Gesten und/oder Gesichtsausdrücken, die mit dem Wort „Hund“ assoziiert sind, umfassen. Als Reaktion darauf, dass das KI-Modell 316 Videodaten, die Gebärdensprache des Wortes „Hund“ beinhalten, empfängt, kann das KI-Modell 316 Textdaten, Audiodaten und/oder Videodaten, die dem Wort „Hund“ entsprechen, erzeugen.
  • Bei einigen Beispielen können Benutzereinstellungen (z. B. Benutzereinstellungen 114 in 1) und/oder Sensordaten in das KI-Modell 316 eingegeben und verwendet werden, um das KI-Modell 316 zu trainieren. Wie zuvor in Verbindung mit 1 beschrieben, können die Benutzeroberfläche 306 und/oder die Kamera 310 Benutzereinstellungen empfangen. Die Benutzereinstellungen können beispielsweise bestimmen, in welche Sprache Textdaten, Audiodaten und/oder Videodaten umgewandelt werden. Benutzereinstellungen können auch von Sensordaten abgeleitet werden. Die Sensordaten können von einer oder mehreren Rechenvorrichtungen stammen.
  • Beispielsweise kann das KI-Modell 316 einen Standort eines Benutzers einer Rechenvorrichtung in Deutschland empfangen, wenn der Sensor ein globales Positionssystem (GPS) ist, und bestimmen, dass die Sprache des Benutzers Deutsch ist. Dementsprechend kann das KI-Modell 316 empfangene Textdaten, Audiodaten und/oder Videodaten von einer anderen Rechenvorrichtung ins Deutsche übersetzen und die empfangenen Textdaten, Audiodaten und/oder Videodaten auf Deutsch anzeigen. Bei einigen Beispielen kann die andere Rechenvorrichtung Sensordaten, beispielsweise einen Standort eines Benutzers der anderen Rechenvorrichtung in Frankreich, an die Rechenvorrichtung übertragen. Dementsprechend kann das KI-Modell 316 Textdaten, Audiodaten und/oder Videodaten, die durch den Benutzer der Rechenvorrichtung erstellt wurden, ins Französische übersetzen und die übersetzten Textdaten, Audio- und/oder Videodaten an die andere Rechenvorrichtung übertragen.
  • 4 ist ein Ablaufdiagramm eines Verfahrens 450 zum Umwandeln von Gebärdensprache gemäß einer Anzahl von Ausführungsformen der vorliegenden Offenbarung. Bei Block 452 kann das Verfahren 450 das Empfangen an einer Verarbeitungsressource einer Rechenvorrichtung über ein Funkgerät der Rechenvorrichtung beinhalten, die mindestens eines von Textdaten, Audiodaten oder Videodaten oder eine beliebige Kombination davon beinhaltet. Die Rechenvorrichtung kann Daten über ein Funkgerät empfangen und/oder übertragen. Das Funkgerät kann über eine Netzwerkbeziehung kommunizieren, über die die Rechenvorrichtung mit einem oder mehreren anderen Rechenvorrichtungen, tragbaren Vorrichtungen, Telefonen, Sensoren, smarten Assistenten und/oder Cloud-Computing-Vorrichtungen kommuniziert.
  • Bei Block 454 kann das Verfahren 450 das Umwandeln an der Verarbeitungsressource von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten in Daten, die eine Gebärdensprache darstellen, beinhalten. Bei einigen Beispielen kann die Verarbeitung natürlicher Sprache (Natural Language Processing - NLP) zum Umwandeln der Textdaten, Audiodaten und/oder Videodaten in Daten, die die Gebärdensprache darstellen, verwendet werden.
  • Bei Block 456 kann das Verfahren 450 das Erzeugen anderer Videodaten an der Verarbeitungsressource beinhalten, die mindestens zum Teil auf den Daten basieren, die die Gebärdensprache darstellen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen. Die Ausführung der Gebärdensprache kann durch einen oder mehrere Avatare erfolgen.
  • Bei Block 458 kann das Verfahren 450 das Übertragen einer zweiten Signalisierung, die die anderen Videodaten von der Verarbeitungsressource an eine Benutzeroberfläche darstellt, beinhalten. Die Benutzeroberfläche kann durch die Rechenvorrichtung als Reaktion auf das Empfangen einer Signalisierung von der Verarbeitungsressource erzeugt werden.
  • Bei Block 460 kann das Verfahren 450 das Anzeigen der Ausführung der Gebärdensprache auf der Benutzeroberfläche als Reaktion darauf, dass die Benutzeroberfläche die zweite Signalisierung empfängt, beinhalten. Bei einer Anzahl von Ausführungsformen können die Textdaten, die Audiodaten und/oder die Videodaten und die anderen Videodaten gleichzeitig auf der Benutzeroberfläche angezeigt werden.
  • Obwohl hierin spezifische Ausführungsformen veranschaulicht und beschrieben wurden, wird der Durchschnittsfachmann verstehen, dass eine Anordnung, die zum Erzielen der gleichen Ergebnisse ausgelegt ist, an die Stelle der spezifischen gezeigten Ausführungsformen treten kann. Diese Offenbarung soll Anpassungen oder Variationen einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung abdecken. Es versteht sich, dass die obige Beschreibung veranschaulichend und nicht einschränkend verfasst wurde. Kombinationen der vorstehenden Ausführungsformen und anderer Ausführungsformen, die nicht spezifisch hierin beschrieben sind, werden nach der Lektüre der vorstehenden Beschreibung für den Fachmann auf der Hand liegen. Der Umfang der einen oder mehreren Ausführungsformen der vorliegenden Offenbarung beinhaltet andere Anwendungen, in denen die vorstehenden Strukturen und Verfahren verwendet werden. Daher sollte der Umfang von einer oder mehreren Ausführungsformen der vorliegenden Offenbarung unter Bezugnahme auf die beigefügten Ansprüche bestimmt werden, gemeinsam mit der vollständigen Spanne an Äquivalenten, zu denen derartige Ansprüche berechtigt sind.
  • In der vorstehenden detaillierten Beschreibung sind verschiedene Merkmale in einer einzelnen Ausführungsform zusammen gruppiert, um die Offenbarung knapper zu gestalten. Dieses Verfahren der Offenbarung soll nicht die Absicht reflektieren, dass die offenbarten Ausführungsformen der vorliegenden Offenbarung mehr Merkmale verwenden müssen als jeweils in jedem Anspruch aufgeführt. Vielmehr liegt der erfinderische Gegenstand, wie die nachfolgenden Ansprüche zeigen, in weniger als allen Merkmalen einer einzelnen offenbarten Ausführungsform. Somit werden die folgenden Ansprüche hiermit in die detaillierte Beschreibung aufgenommen, wobei jeder Anspruch für sich als separate Ausführungsform steht.

Claims (20)

  1. Verfahren, Folgendes umfassend: Empfangen an einer Verarbeitungsressource (104), einer Rechenvorrichtung (100) über ein Funkgerät (102) der Rechenvorrichtung einer ersten Signalisierung, die mindestens eines von Textdaten (220), Audiodaten (222) oder Videodaten (224) oder eine beliebige Kombination davon beinhaltet; Umwandeln an der Verarbeitungsressource von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten in Daten, die eine Gebärdensprache darstellen (228); Erzeugen an der Verarbeitungsressourcen von anderen Videodaten mindestens zum Teil basierend auf den Daten, die die Gebärdensprache darstellen, wobei die anderen Videodaten Anweisungen zur Anzeige einer Ausführung der Gebärdensprache umfassen; Übertragen einer zweiten Signalisierung, die die anderen Videodaten darstellt, von der Verarbeitungsressource zu einer Benutzeroberfläche (106, 306); und Anzeigen der Ausführung der Gebärdensprache auf der Benutzeroberfläche als Reaktion darauf, dass die Benutzeroberfläche die zweite Signalisierung empfängt.
  2. Verfahren nach Anspruch 1, das ferner das gleichzeitige Anzeigen von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon umfasst, und wobei die anderen Videodaten die gleichzeitige Ausführung der Gebärdensprache auf der Benutzeroberfläche beinhalten.
  3. Verfahren nach Anspruch 1, ferner Folgendes umfassend: Empfangen an der Verarbeitungsressource einer dritten Signalisierung, die Daten, die Benutzereinstellungen (114) darstellen, beinhaltet; und Erzeugen an der Verarbeitungsressource der anderen Videodaten mindestens zum Teil basierend auf den Daten, die die Benutzereinstellungen darstellen.
  4. Verfahren nach Anspruch 3, ferner Folgendes umfassend: Empfangen über eine Kamera (110, 310) von Daten, die die Benutzereinstellungen in Gebärdensprache darstellen; und Übertragen der dritten Signalisierung einschließlich der Daten, die die Benutzereinstellungen darstellen, von der Kamera an die Verarbeitungsressource.
  5. Verfahren nach Anspruch 3, ferner Folgendes umfassend: Empfangen einer Auswahl der Benutzereinstellungen auf der Benutzeroberfläche; und Übertragen der dritten Signalisierung, die die Daten darstellen, beinhaltet, von der Benutzeroberfläche an die Verarbeitungsressource.
  6. Verfahren nach Anspruch 3, ferner Folgendes umfassend: Empfangen von Sensordaten von einem Sensor (112, 312); und Erzeugen der Daten, die die Benutzereinstellungen darstellen, mindestens zum Teil basierend auf den Sensordaten.
  7. Verfahren nach Anspruch 1, ferner Folgendes umfassend: Empfangen einer dritten Signalisierung, die Videodaten eines Benutzers beinhaltet, über die Kamera; und Erzeugen der anderen Videodaten an der Verarbeitungsressource mindestens zum Teil basierend auf den Videodaten des Benutzers.
  8. Verfahren nach Anspruch 1, das ferner das Erzeugen der anderen Videodaten durch Ausführen eines Vorgangs künstlicher Intelligenz (KI) an den Daten, die die Gebärdensprache darstellen, unter Verwenden eines KI-Modells (116, 216, 316) umfasst.
  9. Verfahren nach Anspruch 1, ferner Folgendes umfassend: Umwandeln an der Verarbeitungsressource von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon in Daten, die einen Gesichtsausdruck darstellen; und Erzeugen an der Verarbeitungsressource der anderen Videodaten mindestens zum Teil basierend auf den Daten, die den Gesichtsausdruck darstellen, wobei das andere Video Anweisungen zur Anzeige des Gesichtsausdrucks umfasst.
  10. Verfahren nach Anspruch 1, ferner Folgendes umfassend: Empfangen über das Funkgerät einer dritten Signalisierung, die die Sensordaten von einer anderen Rechenvorrichtung beinhaltet; und Erzeugen an der Verarbeitungsressource der anderen Videodaten mindestens zum Teil basierend auf den Sensordaten von der anderen Rechenvorrichtung.
  11. Einrichtung, Folgendes umfassend: eine Kamera (110, 310); ein Funkgerät (102); und eine Verarbeitungsressource (104), die mit der Kamera und dem Funkgerät gekoppelt ist, wobei die Verarbeitungsressource dazu konfiguriert ist: über die Kamera eine erste Signalisierung zu empfangen, die Videodaten (224) darstellt, die mindestens eines von einem Buchstaben, einem Wort, einer Phrase, einem Satz oder eine Aussage oder eine beliebige Kombination davon in einer Gebärdensprache (228) beinhalten; die Videodaten in mindestens eines von Textdaten (220), Audiodaten (222) oder anderen Videodaten oder eine beliebige Kombination davon umzuwandeln; und über das Funkgerät eine zweite Signalisierung zu übertragen, die mindestens eines von den Textdaten, den Audiodaten oder den anderen Videodaten oder eine beliebige Kombination davon beinhaltet.
  12. Einrichtung nach Anspruch 11, wobei die erste Signalisierung, die die Videodaten darstellt, mindestens eines von Körpersprache, Gesten oder Gesichtsausdrücken oder eine beliebige Kombination davon beinhaltet.
  13. Einrichtung nach Anspruch 11, wobei die Audiodaten eine Stimmlage beinhalten, die mindestens zum Teil auf den Videodaten basiert.
  14. Einrichtung nach Anspruch 11, wobei die Verarbeitungsressource dazu konfiguriert ist, die Videodaten in mindestens eines von den Textdaten, den Audiodaten oder den anderen Videodaten oder eine beliebige Kombination davon in einer jeweiligen Sprache umzuwandeln.
  15. Einrichtung nach Anspruch 14, wobei die Verarbeitungsressource dazu konfiguriert ist: eine dritte Signalisierung, die eine Nachricht darstellt, zu empfangen; die jeweilige Sprache der Nachricht zu bestimmen; und die Videodaten in mindestens eines von den Textdaten, den Audiodaten oder den anderen Videodaten oder eine beliebige Kombination davon in der jeweiligen Sprache als Reaktion auf das Bestimmen der jeweiligen Sprache der Nachricht umzuwandeln.
  16. Einrichtung, Folgendes umfassend: einen Speicher (108); eine Benutzeroberfläche (106, 306); ein Funkgerät (102); eine Kamera (110, 310); und eine Verarbeitungsressource (104), die mit dem Speicher, der Benutzeroberfläche, dem Funkgerät und der Kamera gekoppelt ist, wobei die Verarbeitungsressource dazu konfiguriert ist: ein Bild auf der Benutzeroberfläche anzuzeigen; über die Kamera eine erste Signalisierung, die Videodaten darstellt, die mindestens einen Buchstaben, ein Wort, eine Phrase, einen Satz oder eine Aussage oder eine beliebige Kombination davon beinhalten, in einer Gebärdensprache (228), als Reaktion auf das Anzeigen des Bildes auf der Benutzeroberfläche zu empfangen; die Videodaten und Daten, die das Bild darstellen, in dem Speicher zu speichern; ein Modell (116, 216, 316) künstlicher Intelligenz (KI) zu trainieren, indem sie die Videodaten und die Daten, die das Bild darstellen, in das KI-Modell eingibt; an der Verarbeitungsressource über das Funkgerät eine zweite Signalisierung zu empfangen, die mindestens eines von Textdaten (220), Audiodaten (222) oder Videodaten (224) oder eine beliebige Kombination davon beinhaltet; Videodaten zu erzeugen, wobei die Videodaten Anweisungen zur Anzeige einer Ausführung von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon in Gebärdensprache durch Eingeben von mindestens einem von den Textdaten, den Audiodaten oder den Videodaten oder einer beliebigen Kombination davon in das KI-Modell umfassen; und Anzeige der Videodaten auf der Benutzeroberfläche.
  17. Einrichtung nach Anspruch 16, wobei die Benutzeroberfläche auf mindestens einem von einer Anzeige oder einem Hologramm oder einer beliebigen Kombination davon gezeigt wird.
  18. Einrichtung nach Anspruch 16, wobei die Videodaten Anweisungen zur Anzeige einer Ausführung von mindestens einem von Körpersprache, Gesten oder Gesichtsausdrücken oder einer beliebigen Kombination davon umfassen.
  19. Einrichtung nach Anspruch 16, wobei die Verarbeitungsressource dazu konfiguriert ist, das KI-Modell durch Eingeben von Benutzereinstellungen (114) zu trainieren.
  20. Einrichtung nach Anspruch 16, wobei die Verarbeitungsressource dazu konfiguriert ist, das KI-Modell durch Eingabe von Sensordaten zu trainieren.
DE102022107251.7A 2021-04-20 2022-03-28 Umwandeln von Gebärdensprache Pending DE102022107251A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/234943 2021-04-20
US17/234,943 US11817126B2 (en) 2021-04-20 2021-04-20 Converting sign language

Publications (1)

Publication Number Publication Date
DE102022107251A1 true DE102022107251A1 (de) 2022-10-20

Family

ID=83447457

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022107251.7A Pending DE102022107251A1 (de) 2021-04-20 2022-03-28 Umwandeln von Gebärdensprache

Country Status (3)

Country Link
US (1) US11817126B2 (de)
CN (1) CN115223428A (de)
DE (1) DE102022107251A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11908056B2 (en) * 2021-04-26 2024-02-20 Rovi Guides, Inc. Sentiment-based interactive avatar system for sign language
US20220358701A1 (en) * 2021-05-05 2022-11-10 Disney Enterprises, Inc. Emotion-Based Sign Language Enhancement of Content
US20220358855A1 (en) 2021-05-05 2022-11-10 Disney Enterprises, Inc. Accessibility Enhanced Content Creation
US20230077446A1 (en) * 2021-09-16 2023-03-16 International Business Machines Corporation Smart seamless sign language conversation device

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5982853A (en) 1995-03-01 1999-11-09 Liebermann; Raanan Telephone for the deaf and method of using same
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
US7333507B2 (en) 2001-08-31 2008-02-19 Philip Bravin Multi modal communications system
US8494859B2 (en) 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
US7565295B1 (en) 2003-08-28 2009-07-21 The George Washington University Method and apparatus for translating hand gestures
CN101005574A (zh) * 2006-01-17 2007-07-25 上海中科计算技术研究所 视频虚拟人手语编辑系统
US7746986B2 (en) 2006-06-15 2010-06-29 Verizon Data Services Llc Methods and systems for a sign language graphical interpreter
US9282377B2 (en) 2007-05-31 2016-03-08 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
US8280434B2 (en) 2009-02-27 2012-10-02 Research In Motion Limited Mobile wireless communications device for hearing and/or speech impaired user
US20140171036A1 (en) * 2009-11-18 2014-06-19 Gwendolyn Simmons Method of communication
CN102497513A (zh) * 2011-11-25 2012-06-13 中山大学 一种面向数字电视的视频虚拟人手语系统
EP3163892A4 (de) * 2014-06-30 2017-11-08 LG Electronics Inc. Rundfunkempfangsvorrichtung, verfahren zum betrieb der rundfunkempfangsvorrichtung, verbindungsvorrichtung zur verbindung an eine rundfunkempfangsvorrichtung und verfahren zum betrieb einer verbindungsvorrichtung
WO2018052901A1 (en) 2016-09-13 2018-03-22 Magic Leap, Inc. Sensory eyewear
CN108960126A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 手语翻译的方法、装置、设备及系统
CN109740447A (zh) 2018-12-14 2019-05-10 深圳壹账通智能科技有限公司 基于人工智能的通信方法、设备及可读存储介质
CN110070065A (zh) * 2019-04-30 2019-07-30 李冠津 基于视觉以及语音智能的手语系统以及通讯方法
CN110598576B (zh) * 2019-08-21 2023-06-23 腾讯科技(深圳)有限公司 一种手语交互方法、装置及计算机介质
CN110931042B (zh) * 2019-11-14 2022-08-16 北京欧珀通信有限公司 同声传译方法、装置、电子设备以及存储介质
US11438669B2 (en) * 2019-11-25 2022-09-06 Dish Network L.L.C. Methods and systems for sign language interpretation of media stream data
CN111354246A (zh) * 2020-01-16 2020-06-30 浙江工业大学 一种用于帮助聋哑人交流的系统及方法
US11218666B1 (en) * 2020-12-11 2022-01-04 Amazon Technologies, Inc. Enhanced audio and video capture and presentation

Also Published As

Publication number Publication date
CN115223428A (zh) 2022-10-21
US11817126B2 (en) 2023-11-14
US20220335971A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
DE102022107251A1 (de) Umwandeln von Gebärdensprache
Kirkpatrick English language education policy in Asia
Niklas et al. Home literacy environment and the beginning of reading and spelling
Low et al. The spread of English in ASEAN: Policies and issues
Evans et al. English-medium instruction in Hong Kong: Illuminating a grey area in school policies and classroom practices
DE102019000433A1 (de) Generieren einer themenbasierten Zusammenfassung eines Textinhalts
Sung Implementing a Global Englishes component in a university English course in Hong Kong: Student perceptions and implications for course development and implementation
EP2599075A1 (de) System und verfahren für relevanzbasiertes kategorisieren und zeitnahes lernen von vokabeln
CN110795917B (zh) 个性化讲义生成方法、系统及电子设备、存储介质
Khalique The Urdu-English relationship and its impact on Pakistan's social development
CN108090098B (zh) 一种文本处理方法及装置
CN112434144B (zh) 生成目标问题的方法、装置、电子设备和计算机可读介质
DE102012112087A1 (de) Verfahren und Vorrichtung für Übersetzung
Wunnasri et al. Reliability investigation of automatic assessment of learner-build concept map with Kit-Build method by comparing with manual methods
O’Keeffe et al. A linguistic analysis of the sample numeracy skills test items for pre-service teachers issued by the Australian Council for Educational Research (ACER)
CN113177394B (zh) 海外视频教学资源转化系统及方法、电子设备及存储介质
Elkhayma English as a Medium of Instruction: Exploring Benefits and Challenges in the 21st Century
Reese “We are still here”: An interview with Debbie Reese
Heckman et al. The Syllabus is a Boys' Club: The Paucity of Woman Authors in Journalism Course Materials
Ekmekci Transformation of traditional writing classes into digital ones
Baig Disenfranchising the marginalized: the intersectionality of politics of distraction and English-medium education (EME) in Pakistani educational policy
Castro The Perceived Presence/Absence of the Galician Accent on Galician TV Newscasts
Stoilescu An analysis of content and policies in ict education in australia
Lazen American Branch Campuses with an" Arabian Accent": Adaptation of Educational Policies, Programs, and Practices in Transnational Education.
US12087277B2 (en) Phoneme mispronunciation ranking and phonemic rules for identifying reading passages for reading progress

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R083 Amendment of/additions to inventor(s)