CN115223428A - 转换手语 - Google Patents

转换手语 Download PDF

Info

Publication number
CN115223428A
CN115223428A CN202210311979.9A CN202210311979A CN115223428A CN 115223428 A CN115223428 A CN 115223428A CN 202210311979 A CN202210311979 A CN 202210311979A CN 115223428 A CN115223428 A CN 115223428A
Authority
CN
China
Prior art keywords
data
video data
processing resource
sign language
signaling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210311979.9A
Other languages
English (en)
Inventor
A·E·格鲁斯卡
A·S·帕雷克
M·W·福尔图纳蒂
T·M·迪迪欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Micron Technology Inc
Original Assignee
Micron Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Micron Technology Inc filed Critical Micron Technology Inc
Publication of CN115223428A publication Critical patent/CN115223428A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/04Devices for conversing with the deaf-blind
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/009Teaching or communicating with deaf persons
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/10Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations all student stations being capable of presenting the same information simultaneously
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

描述了涉及转换手语的方法和装置。在实例中,一种方法可包含:在计算装置的处理资源处经由所述计算装置的无线电接收包含文本数据、音频数据或视频数据中的至少一个或其任何组合的第一信令,在所述处理资源处将所述文本数据、所述音频数据或所述视频数据中的至少一个转换为表示手语的数据,至少部分地基于表示所述手语的所述数据在所述处理资源处生成不同视频数据,其中所述不同视频数据包括用于显示所述手语的表现的指令,将表示来自所述处理资源的所述不同视频数据的第二信令传输到用户界面,以及响应于所述用户界面接收到所述第二信令而在所述用户界面上显示所述手语的所述表现。

Description

转换手语
技术领域
本公开大体上涉及转换手语。
背景技术
计算装置可以是例如智能手机、可穿戴式装置、平板计算机、膝上型计算机、台式计算机或智能辅助装置。计算装置可接收和/或传输数据,并且可包含或耦合到一或多个存储器装置。存储器装置通常被提供为计算机或其它电子系统中的内部、半导体、集成电路。存在许多不同类型的存储器,包含易失性和非易失性存储器。易失性存储器可需要功率以维持其数据(例如,主机数据、误差数据等)并包含随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、同步动态随机存取存储器(SDRAM)和闸流晶体管随机存取存储器(TRAM)等等。非易失性存储器可通过在未被供电时保存所存储数据来提供永久数据,并且可包含NAND快闪存储器、NOR快闪存储器及电阻可变存储器,例如相变随机存取存储器(PCRAM)、电阻性随机存取存储器(RRAM)及磁阻随机存取存储器(MRAM),例如自旋力矩转移随机存取存储器(STT RAM)等等。
发明内容
在一个方面中,本申请提供一种用于转换手语的方法,其包括:在计算装置的处理资源处经由所述计算装置的无线电接收包含文本数据、音频数据或视频数据中的至少一个或其任何组合的第一信令;在所述处理资源处将所述文本数据、所述音频数据或所述视频数据中的至少一个转换为表示手语的数据;至少部分地基于表示所述手语的所述数据在所述处理资源处生成不同视频数据,其中所述不同视频数据包括用于显示所述手语的表现的指令;将表示来自所述处理资源的所述不同视频数据的第二信令传输到用户界面;以及响应于所述用户界面接收到所述第二信令而在所述用户界面上显示所述手语的所述表现。
在另一方面中,本申请提供一种用于转换手语的设备,其包括:相机;无线电;以及处理资源,其耦合到所述相机和所述无线电,其中所述处理资源被配置成:经由所述相机接收表示视频数据的第一信令,所述第一信令包含呈手语形式的字母、单词、短语、句子或语句中的至少一个或其任何组合;将所述视频数据转换为文本数据、音频数据或不同视频数据中的至少一个或其任何组合;以及经由所述无线电传输第二信令,所述第二信令包含所述文本数据、所述音频数据或所述不同视频数据中的至少一个或其任何组合。
在另一方面中,本申请提供一种用于转换手语的设备,其包括:存储器;用户界面;无线电;相机;以及处理资源,其耦合到所述存储器、所述用户界面、所述无线电和所述相机,其中所述处理资源被配置成:在所述用户界面上显示图像;响应于在所述用户界面上显示所述图像而经由所述相机接收表示视频数据的第一信令,所述第一信令包含呈手语形式的字母、单词、短语、句子或语句中的至少一个或其任何组合;将所述视频数据和表示所述图像的数据存储在所述存储器中;通过将所述视频数据和表示所述图像的所述数据输入到所述人工智能AI模型中来训练(AI)模型;经由所述无线电在所述处理资源处接收第二信令,所述第二信令包含文本数据、音频数据或视频数据中的至少一个或其任何组合;生成视频数据,其中所述视频数据包括指令,所述指令用于通过将所述文本数据、所述音频数据或所述视频数据中的至少一个或其任何组合输入到所述AI模型中,以显示呈手语形式的所述文本数据、所述音频数据或所述视频数据中的至少一个或其任何组合的表现;以及在所述用户界面上显示所述视频数据。
附图说明
图1示出了根据本公开的若干实施例的用于转换手语的计算装置的实例。
图2示出了根据本公开的若干实施例的用于使用AI模型转换手语的流程图的实例。
图3示出了根据本公开的若干实施例的用于教AI模型转换手语的实例流程图。
图4是根据本公开的若干实施例的用于转换手语的方法的流程图。
具体实施方式
本公开包含与以下内容有关的方法和设备:接收文本数据、音频数据和/或视频数据,将文本数据、音频数据和/或视频数据转换为表示手语的数据,以及至少部分地基于表示手语的数据生成不同视频数据。在一些实例中,不同视频数据可包含用于在用户界面上显示手语的表现的指令。
媒体平台通常提供字幕,然而,包含语前失聪人员的一些失聪团体更喜欢手语而不是字幕。因此,用户可能更喜欢显示手语的表现,而不是字幕或与字幕结合使用。
世界上存在100多种不同的手语,并且手语可能因国家和/或地区而不同。肢体语言、面部表情和/或手势可以在许多手语的交流中发挥重要作用。在一些情况下,字幕无法准确描绘肢体语言、面部表情和/或手势。因此,包含肢体语言、面部表情和/或手势的手语的表现可能比字幕更准确。
类似地,将手语转换为呈另一语言的文本、音频和/或视频可能缺乏用手势示意者经由肢体语言、面部表情和/或手势提供的沟通线索,这些可能是用手势示意者和/或手语特有的。在呈另一语言的文本、音频和/或视频中检测并整合这些线索,可以实现更准确的沟通并且减少错误信息和/或误解。
人工智能(AI)模型可以在手语与另一语言之间进行准确转换。例如,AI模型可以学习和解释用户的语言、声调、单词选择、肢体语言、面部表情和/或手势,并将其传达给他人。AI模型还可以学习和解释他人的语言、声调、单词选择、肢体语言、面部表情和/或手势,以准确地将他们的交流传达给用户。在一些实例中,文本数据、音频数据和/或视频数据可以转换为表示手语的数据并且生成不同视频数据,所述不同视频数据包括用于响应于对文本数据、音频数据和/或视频数据执行AI操作而显示手语的表现的指令。
如本文所使用,“若干”某物可指此类事物中的一或多个。“多个”某物意指两个或多于两个。本文中的图遵循编号定则,其中第一一或多个数字对应于图号,且剩余的数字标识图式中的元件或组件。可通过使用类似数字来识别不同图之间的类似元件或组件。例如,附图标号216可以指代图2中的元件“16”,并且类似的元素可在图3中表示为316。在一些情况下,同一图中或不同图中的多个类似但在功能上和/或结构上可区分的元件或组件可以同一元件编号依序指代。如应了解,可添加、交换和/或去除本文中的各种实施例中展示的元件,从而提供本公开的若干额外实施例。另外,图中所提供的元件的比例和相对比例意图说明本公开的各种实施例,并且不会以限制性意义来使用。
图1示出了根据本公开的若干实施例的用于转换手语的计算装置100的实例。计算装置100可以是但不限于智能手机、可穿戴式装置、平板计算机、膝上型计算机、台式计算机、智能辅助装置、电视或其任何组合。
无线电102、处理资源104、用户界面106、存储器108、相机110和/或传感器112可包含于计算装置100中和/或耦合到计算装置100。计算装置100可使用例如但不限于无线电102之类的通信装置(例如,中间装置)经由有线和/或无线传输接收和/或传输数据。无线电102通过信令(例如,无线电信号)和/或网络关系可使计算装置100能够与一或多个其它计算装置、可穿戴式装置、电话、传感器、智能助理和/或云计算装置通信。此网络关系的实例可包含蓝牙、隔空投送、点对点Wi-Fi网络、蜂窝式网络、分布式计算环境(例如,云计算环境)、例如因特网之类的广域网(WAN)、局域网(LAN)、个域网(PAN)、校园区域网络(CAN)或城域网(MAN),以及其它类型的网络关系。
存储器108可包含易失性和/或非易失性存储器,例如DRAM、NAND和/或3D交叉点。存储器108可耦合到处理资源104并且可存储用户设置114和AI模型116。存储器108可以是可由处理资源104存取以执行本公开的各种实例的任何类型的存储媒体。例如,存储器108可以是上面存储有计算机可读指令(例如,计算机程序指令)的非暂时性计算机可读媒体,所述计算机可读指令可由处理资源104执行以进行以下操作:在计算装置100的处理资源104处经由计算装置100的无线电102接收包含文本数据、音频数据、视频数据中的至少一个或其任何组合的第一信令;在处理资源104处将文本数据、音频数据或视频数据中的至少一个转换为表示手语的数据;至少部分地基于表示手语的数据在处理资源104处生成不同视频数据,其中所述不同视频数据包括用于显示手语的表现的指令;将表示来自处理资源104的不同视频数据的第二信令传输到用户界面106;以及响应于用户界面106接收到第二信令而在用户界面106上显示手语的表现。
在一些实例中,可在用户界面106上同时显示文本数据、音频数据和/或视频数据以及包含手语的表现的不同视频数据。手语的表现可由一或多个化身(例如,深度伪造技术)执行。所述一或多个化身可包含名人、角色、计算装置100的用户或用户已知的关联人物(例如,家人、朋友、同事、熟人)。例如,如果朋友将文本数据发送给用户,则朋友可以是在用户界面106上向用户用手语传达消息的化身。在一些实例中,用户可观看视频(例如,电影、电视节目和/或视频剪辑),并且一或多个化身可包含在屏幕的拐角中。例如,当电影中的女演员在讲话时,可以在用户界面106上显示女演员的化身,将她正在对用户说的话用手语传达。当女演员不再说话时,可以从用户界面106移除女演员的化身。在一些实例中,当场景中有多个角色时,对应于其相应角色的多个化身可以执行手语。
用户界面106可由计算装置100响应于从处理资源104接收到信令而生成。用户界面106可以是可将信息提供到计算装置100的用户和/或从所述计算装置的用户接收信息的图形用户界面(GUI)。在若干实施例中,可在计算装置100的电视和/或显示器和/或全息图上示出用户界面106。
用户可以经由用户界面106接收数据和/或传输选择(例如,命令)。例如,用户界面106可显示若干选项,并且用户界面106可响应于用户在用户界面106上选择一或多个选项而接收对若干选项中的一或多个的选择。在一些实例中,用户界面106可接收用户设置114的输入和/或用户设置114的选择,并且用户界面106可将包含表示用户设置114的数据的信令传输到处理资源104。在若干实施例中,相机110可以接收呈手语形式的用户设置114,并且将包含表示用户设置114的数据的信令传输到处理资源104。相机110可以是照相机、摄像机和/或图像传感器,并且可拍摄照片和/或视频。
用户设置114还可以从传感器112的传感器数据中导出。传感器数据可从传感器112传输到处理资源104,并且处理资源104可至少部分地基于传感器数据生成表示用户设置114的数据。例如,可响应于传感器为全局位置系统(GPS)而确定计算装置100的位置。如果来自传感器112的传感器数据传输指示计算装置100位于美国的位置数据,则处理资源104可确定语言设置应被编程为例如用户设置114中的英语。
在一些实例中,用户设置114可响应于处理资源104接收到用户设置114而存储在存储器108中。可基于用户设置114来创建和执行计算装置100的指令。例如,处理资源104可至少部分地基于表示用户设置114的数据生成不同视频数据。
计算装置100可经由无线电102从不同计算装置接收包含传感器数据的信令。处理资源104可至少部分地基于来自不同计算装置的传感器数据生成不同视频数据。例如,可以响应于来自不同计算装置的传感器作为心率监测器而确定不同计算装置的不同用户的心率。如果来自不同计算装置的传感器将不同用户的心率与文本数据、音频数据和/或视频数据一起传输到计算装置100,则处理资源104可确定不同用户是焦虑的。在若干实施例中,处理资源104可部分地基于表示不同用户的焦虑的传感器数据生成不同视频数据,并且提供用以在不同视频中显示不同用户的焦虑的指令。
用户的视频数据可经由相机110接收并且传输到处理资源104。处理资源104可至少部分地基于用户的视频数据生成不同视频数据。例如,手语的表现可以使用用户的手语、肢体语言、面部表情和/或手势,以使通信清晰并且易于用户理解。
在若干实施例中,处理资源104可将接收到的文本数据、音频数据和/或视频数据转换为表示肢体语言、面部表情和/或手势的数据。处理资源104可以至少部分地基于表示肢体语言、面部表情和/或手势的数据生成不同视频数据,并且不同视频可以包括用于显示肢体语言、面部表情和/或手势的指令。
在一些实例中,处理资源104可经由相机110从计算装置100的用户接收表示视频数据的信令,所述信令包含呈手语形式的字母、单词、短语、句子和/或语句。处理资源104可以将视频数据转换为呈特定语言形式的文本数据、音频数据和/或不同视频数据。
处理资源104可经由无线电102传输包含文本数据、音频数据和/或视频数据的信令。在若干实施例中,表示视频数据的信令可包含肢体语言、手势和/或面部表情。文本数据、音频数据和/或不同视频数据可至少部分地基于视频数据。例如,音频数据可包含基于视频数据的声调。
在若干实施例中,处理资源104可从不同计算装置接收表示文本数据、音频数据和/或视频数据的信令,并且确定文本数据、音频数据和/或视频数据呈特定语言形式。处理资源104可接收计算装置100的用户用手语传达的视频数据,并且将计算装置100的用户用手语传达的视频数据转换为呈特定语言形式的文本数据、音频数据和/或不同视频数据,所述特定语言形式为来自不同计算装置的消息所呈的形式。例如,计算装置100可从不同计算装置接收消息,确定消息所呈的语言形式,并且以与接收到的消息相同的语言形式向不同的计算装置传输响应。
处理资源104可包含被配置成使得计算装置100能够执行AI操作的组件。在一些实例中,AI操作可包含训练操作或推断操作,或这两者。在若干实施例中,AI模型116可使用样本数据在云端中进行远程训练并且传输到计算装置100和/或在计算装置100上进行训练。在一些实例中,可通过使用AI模型116对表示手语的数据执行AI操作来生成不同视频数据。
图2示出了根据本公开的若干实施例的用于使用AI模型216转换手语的流程图的实例。AI模型216可对应于图1中的AI模型116。AI模型216可接收文本220、音频222和/或视频224,并且将文本220、音频222和/或视频224转换为手语228(例如,不同视频)。在一些实例中,AI模型216可通过例如记录用户手语的相机(例如,图1中的相机110)接收手语228,并且将手语228转换为文本220、音频222和/或视频224。
文本数据220可包含若干字母、数字、字符、缩写、首字母缩略词、单词、俚语、短语、谚语、句子、引述和/或标点符号。例如,取决于上下文、作者、作者的语言、作者的位置和/或作者的出身,使用若干字母、数字、字符、缩写、首字母缩略词、单词、俚语、短语、谚语、句子、引述和/或标点符号可能具有不同的含义。AI模型216可基于上下文、作者、作者的语言、作者的位置和/或作者的出身分析文本数据220,并且确定文本数据220的含义。可使用手势信号、肢体语言、手势和/或面部表情将文本数据220的含义翻译成手语228。
音频数据222可包含若干声音、停顿、声调、音调、嗓音、字母、数字、字符、缩写、首字母缩略词、单词、俚语、短语、谚语、句子和/或引述。例如,取决于上下文、说话人、说话人的语言、说话人的位置和/或说话人的出身,使用若干声音、停顿、声调、音调、嗓音、字母、数字、字符、缩写、首字母缩略词、单词、俚语、短语、谚语、句子、引述和/或标点符号可能具有不同的含义。AI模型216可以基于上下文、说话人、说话人的语言、说话人的位置和/或说话人的出身分析音频数据222,并且确定音频数据222的含义。可使用手势信号、肢体语言、手势和/或面部表情将音频数据222的含义翻译成手语228。
视频数据224可包含若干声音、停顿、声调、音调、嗓音、字母、数字、字符、缩写、首字母缩略词、单词、俚语、短语、谚语、句子、引述、手势信号、手势、肢体语言和/或面部表情。例如,取决于上下文、表演者、表演者的语言,表演者的位置和/或表演者的出身,使用若干声音、停顿、声调、音调、嗓音、字母、数字、字符、缩写、首字母缩略词、单词、俚语、短语、谚语、句子、引述、手势信号、手势、肢体语言和/或面部表情可能具有不同的含义。AI模型216可以基于上下文、表演者、表演者的语言、表演者的位置和/或表演者的出身分析视频数据224,并且确定视频数据224的含义。可使用手势信号、肢体语言、手势和/或面部表情将视频数据224的含义翻译成手语228。
取决于上下文、表演者、表演者的位置和/或表演者的出身,在执行手语228时使用若干手势信号、手势、肢体语言和/或面部表情可能具有不同的含义。AI模型216可以基于上下文、表演者、表演者的位置和/或表演者的出身分析手语228,并且确定手语228的含义。手语228的含义,包含肢体语言、手势和/或面部表情的含义,可以被翻译成文本数据220、音频数据222和/或视频数据224。
图3示出了根据本公开的若干实施例的用于教AI模型316转换手语的实例流程图。AI模型316可对应于图1中的AI模型116和/或图2中的AI模型216。
在将手语转换为文本数据、语音数据和/或视频数据或将文本数据、语音数据和/或视频数据转换为不同手语之前,AI模型316可以在计算装置(例如,图1中的计算装置100)上被训练和/或不在所述计算装置被训练。AI模型316可被训练以标识和解释声音、停顿、声调、音调、嗓音、字母、数字、字符、缩写、首字母缩略词、单词、俚语、短语、谚语、句子、引述、手势信号、手势、肢体语言和/或面部表情,并且将其翻译为呈相同或不同语言形式的文本数据、音频数据和/或视频数据。
AI模型316可接收用于训练的数据。在一些实例中,翻译数据(例如,文本到语音和/或语音到文本数据)可输入到AI模型316中,并且用于训练AI模型316。可分别从对应于图1中的用户界面106、相机110和/或传感器112的用户界面306、相机310和/或传感器312接收数据。此数据可输入到AI模型316中并且用于训练AI模型316以为用户定制。
例如,可在用户界面306上显示图像。响应于在用户界面306上显示图像,可经由相机310接收表示视频数据的信令。视频数据可包含呈手语形式的字母、单词、短语、句子和/或语句。在一些实例中,视频数据和表示图像的数据可存储在存储器(例如,图1中的存储器108)中。可将视频数据和表示图像的数据输入到AI模型316中以训练AI模型316。例如,AI模型316可将包含图像的命令传输到用户界面306以在用户界面306上显示图像。所述图像可以是例如狗的图像。用户可以他们优选的手语来标记单词“狗”,并且相机310可记录视频数据并且将所述视频数据传输到AI模型316。AI模型316可使狗的图像与其由用户提供的对应标记匹配。在一些实例中,AI模型316可以通过用户在标记库中搜索为单词“狗”提供的手势来确定用户正在使用哪种手语。
响应于AI模型316接收到包含单词“狗”的文本数据、音频数据或视频数据,AI模型316可生成视频数据,所述视频数据包括用于显示包含与单词“狗”相关联的肢体语言、手势和/或面部表情的手语的表现的指令。响应于AI模型316接收到包含单词“狗”的手语的视频数据,AI模型316可生成对应于单词“狗”的文本数据、音频数据和/或视频数据。
在一些实例中,用户设置(例如,图1中的用户设置114)和/或传感器数据可输入到AI模型316中,并且用于训练AI模型316。如先前结合图1所描述,用户界面306和/或相机310可接收用户设置。例如,用户设置可以确定将文本数据、音频数据和/或视频数据转换为哪种语言。还可从传感器数据导出用户设置。传感器数据可来自一或多个计算装置。
例如,AI模型316可在传感器为全局位置系统(GPS)时接收计算装置的用户在德国的位置并且确定用户的语言为德文。因此,AI模型316可将接收到的文本数据、音频数据和/或视频数据从不同计算装置翻译成德文,并且以德文显示接收到的文本数据、音频数据和/或视频数据。在一些实例中,不同计算装置可将传感器数据,例如不同计算装置的用户在法国的位置,传输到计算装置。因此,AI模型316可以将由计算装置的用户创建的文本数据、音频数据和/或视频数据翻译成法语,并且将翻译后的文本数据、音频数据和/或视频数据传输到不同的计算装置。
图4是根据本公开的若干实施例的用于转换手语的方法450的流程图。在框452处,方法450可包含在计算装置的处理资源处经由计算装置的无线电接收包含文本数据、音频数据或视频数据中的至少一个或其任何组合的第一信令。计算装置可经由无线电接收和/或传输数据。无线电可经由网络关系通信,计算装置通过网络关系与一或多个其它计算装置、可穿戴式装置、电话、传感器、智能助理和/或云计算装置通信。
在框454处,方法450可包含在处理资源处将文本数据、音频数据或视频数据中的至少一个转换为表示手语的数据。在一些实例中,自然语言处理(NLP)可用于将文本数据、音频数据和/或视频数据转换为表示手语的数据。
在框456处,方法450可包含至少部分地基于表示手语的数据在处理资源处生成不同视频数据,其中所述不同视频数据包括用于显示手语的表现的指令。手语的表现可由一或多个化身执行。
在框458处,方法450可包含将表示不同视频数据的第二信令从处理资源传输到用户界面。用户界面可由计算装置响应于从处理资源接收到信令而生成。
在框460处,方法450可包含响应于用户界面接收到第二信令而在用户界面上显示手语的表现。在若干实施例中,可在用户界面上同时显示文本数据、音频数据和/或视频数据和不同视频数据。
虽然已在本文中示出并描述了具体实施例,但所属领域的一般技术人员将了解,经计算以实现相同结果的布置可取代所示出的具体实施例。本公开意图覆盖本公开的一或多个实施例的修改或变化。应理解,以说明方式而非限制方式进行了以上描述。在查阅以上描述后,以上实施例和本文未具体描述的其它实施例的组合对于所属领域的技术人员来说将显而易见。本公开的一或多个实施例的范围包含使用以上结构及方法的其它应用。因此,应参考所附权利要求书连同此类权利要求所赋予的等效物的全范围确定本公开的一或多个实施例的范围。
在前述具体实施方式中,出于简化本公开的目的而将一些特征一起分组在单个实施例中。本公开的此方法不应被理解为反映本公开的所公开实施例必须比在每项权利要求中明确叙述那样使用更多特征的意图。实际上,如所附权利要求书所反映,本发明标的物在于单个所公开实施例的不到全部的特征。因此,所附权利要求书特此并入于具体实施方式中,其中每项权利要求就其自身而言作为单独实施例。

Claims (20)

1.一种用于转换手语的方法,其包括:
在计算装置(100)的处理资源(104)处经由所述计算装置的无线电(102)接收包含文本数据(220)、音频数据(222)或视频数据(224)中的至少一个或其任何组合的第一信令;
在所述处理资源处将所述文本数据、所述音频数据或所述视频数据中的至少一个转换为表示手语(228)的数据;
至少部分地基于表示所述手语的所述数据在所述处理资源处生成不同视频数据,其中所述不同视频数据包括用于显示所述手语的表现的指令;
将表示来自所述处理资源的所述不同视频数据的第二信令传输到用户界面(106、306);以及
响应于所述用户界面接收到所述第二信令而在所述用户界面上显示所述手语的所述表现。
2.根据权利要求1所述的方法,其进一步包括在所述用户界面上同时显示所述文本数据、所述音频数据或所述视频数据中的至少一个或其任何组合以及包含所述手语的所述表现的所述不同视频数据。
3.根据权利要求1所述的方法,其进一步包括:
在所述处理资源处接收包含表示用户设置(114)的数据的第三信令;以及
在所述处理资源处至少部分地基于表示所述用户设置的所述数据生成所述不同视频数据。
4.根据权利要求3所述的方法,其进一步包括:
经由相机(110、310)接收表示呈手语形式的所述用户设置的数据;以及
将包含表示所述用户设置的所述数据的所述第三信令从所述相机传输到所述处理资源。
5.根据权利要求3所述的方法,其进一步包括:
在所述用户界面上接收所述用户设置的选择;以及
将包含表示所述用户设置的所述数据的所述第三信令从所述用户界面传输到所述处理资源。
6.根据权利要求3所述的方法,其进一步包括:
从传感器(112、312)接收传感器数据;以及
至少部分地基于所述传感器数据生成表示所述用户设置的所述数据。
7.根据权利要求1所述的方法,其进一步包括:
经由所述相机接收包含用户的视频数据的第三信令;以及
在所述处理资源处至少部分地基于所述用户的所述视频数据生成所述不同视频数据。
8.根据权利要求1所述的方法,其进一步包括通过使用人工智能AI模型(116、216、316)对表示所述手语的所述数据执行AI操作来生成所述不同视频数据。
9.根据权利要求1所述的方法,其进一步包括:
在所述处理资源处将所述文本数据、所述音频数据或所述视频数据中的至少一个或其任何组合转换为表示面部表情的数据;以及
在所述处理资源处至少部分地基于表示所述面部表情的所述数据生成所述不同视频数据,其中所述不同视频包括用于显示所述面部表情的指令。
10.根据权利要求1所述的方法,其进一步包括:
经由所述无线电从不同计算装置接收包含传感器数据的第三信令;以及
在所述处理资源处至少部分地基于来自所述不同计算装置的所述传感器数据生成所述不同视频数据。
11.一种用于转换手语的设备,其包括:
相机(110、310);
无线电(102);以及
处理资源(104),其耦合到所述相机和所述无线电,其中所述处理资源被配置成:
经由所述相机接收表示视频数据(224)的第一信令,所述第一信令包含呈手语(228)形式的字母、单词、短语、句子或语句中的至少一个或其任何组合;
将所述视频数据转换为文本数据(220)、音频数据(222)或不同视频数据中的至少一个或其任何组合;以及
经由所述无线电传输第二信令,所述第二信令包含所述文本数据、所述音频数据或所述不同视频数据中的至少一个或其任何组合。
12.根据权利要求11所述的设备,其中表示所述视频数据的所述第一信令包含肢体语言、手势或面部表情中的至少一个或其任何组合。
13.根据权利要求11所述的设备,其中所述音频数据包含至少部分地基于所述视频数据的声调。
14.根据权利要求11所述的设备,其中所述处理资源被配置成将所述视频数据转换为呈特定语言形式的所述文本数据、所述音频数据或所述不同视频数据中的至少一个或其任何组合。
15.根据权利要求14所述的设备,其中所述处理资源被配置成:
接收表示消息的第三信令;
确定所述消息呈所述特定语言形式;以及
响应于确定所述消息呈所述特定语言形式而将所述视频数据转换为呈所述特定语言形式的所述文本数据、所述音频数据或所述不同视频数据中的至少一个或其任何组合。
16.一种用于转换手语的设备,其包括:
存储器(108);
用户界面(106、306);
无线电(102);
相机(110、310);以及
处理资源(104),其耦合到所述存储器、所述用户界面、所述无线电和所述相机,其中所述处理资源被配置成:
在所述用户界面上显示图像;
响应于在所述用户界面上显示所述图像而经由所述相机接收表示视频数据的第一信令,所述第一信令包含呈手语(228)形式的字母、单词、短语、句子或语句中的至少一个或其任何组合;
将所述视频数据和表示所述图像的数据存储在所述存储器中;
通过将所述视频数据和表示所述图像的所述数据输入到所述人工智能AI模型中来训练AI模型(116、216、316);
经由所述无线电在所述处理资源处接收第二信令,所述第二信令包含文本数据(220)、音频数据(222)或视频数据(224)中的至少一个或其任何组合;
生成视频数据,其中所述视频数据包括指令,所述指令用于通过将所述文本数据、所述音频数据或所述视频数据中的至少一个或其任何组合输入到所述AI模型中,以显示呈手语形式的所述文本数据、所述音频数据或所述视频数据中的至少一个或其任何组合的表现;以及
在所述用户界面上显示所述视频数据。
17.根据权利要求16所述的设备,其中在显示器或全息图中的至少一个或其任何组合上显示所述用户界面。
18.根据权利要求16所述的设备,其中所述视频数据包括用于显示肢体语言、手势或面部表情中的至少一个或其任何组合的表现的指令。
19.根据权利要求16至18中任一权利要求所述的设备,其中所述处理资源被配置成通过输入用户设置(114)来训练所述AI模型。
20.根据权利要求16至18中任一权利要求所述的设备,其中所述处理资源被配置成通过输入传感器数据来训练所述AI模型。
CN202210311979.9A 2021-04-20 2022-03-28 转换手语 Withdrawn CN115223428A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/234,943 2021-04-20
US17/234,943 US11817126B2 (en) 2021-04-20 2021-04-20 Converting sign language

Publications (1)

Publication Number Publication Date
CN115223428A true CN115223428A (zh) 2022-10-21

Family

ID=83447457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210311979.9A Withdrawn CN115223428A (zh) 2021-04-20 2022-03-28 转换手语

Country Status (3)

Country Link
US (1) US11817126B2 (zh)
CN (1) CN115223428A (zh)
DE (1) DE102022107251A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11908056B2 (en) * 2021-04-26 2024-02-20 Rovi Guides, Inc. Sentiment-based interactive avatar system for sign language
US20220358701A1 (en) * 2021-05-05 2022-11-10 Disney Enterprises, Inc. Emotion-Based Sign Language Enhancement of Content
US20220360839A1 (en) 2021-05-05 2022-11-10 Disney Enterprises, Inc. Accessibility Enhanced Content Delivery
US20230077446A1 (en) * 2021-09-16 2023-03-16 International Business Machines Corporation Smart seamless sign language conversation device

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101005574A (zh) * 2006-01-17 2007-07-25 上海中科计算技术研究所 视频虚拟人手语编辑系统
CN102497513A (zh) * 2011-11-25 2012-06-13 中山大学 一种面向数字电视的视频虚拟人手语系统
US20140171036A1 (en) * 2009-11-18 2014-06-19 Gwendolyn Simmons Method of communication
US20170127115A1 (en) * 2014-06-30 2017-05-04 Lg Electronics Inc. Broadcast receiving device, method of operating broadcast receiving device, linking device for linking to broadcast receiving device, and method of operating linking device
CN108960126A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 手语翻译的方法、装置、设备及系统
CN109740447A (zh) * 2018-12-14 2019-05-10 深圳壹账通智能科技有限公司 基于人工智能的通信方法、设备及可读存储介质
CN110070065A (zh) * 2019-04-30 2019-07-30 李冠津 基于视觉以及语音智能的手语系统以及通讯方法
CN110598576A (zh) * 2019-08-21 2019-12-20 腾讯科技(深圳)有限公司 一种手语交互方法、装置及计算机介质
CN110931042A (zh) * 2019-11-14 2020-03-27 北京欧珀通信有限公司 同声传译方法、装置、电子设备以及存储介质
CN111354246A (zh) * 2020-01-16 2020-06-30 浙江工业大学 一种用于帮助聋哑人交流的系统及方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5982853A (en) 1995-03-01 1999-11-09 Liebermann; Raanan Telephone for the deaf and method of using same
JP2002244688A (ja) * 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
US7333507B2 (en) 2001-08-31 2008-02-19 Philip Bravin Multi modal communications system
US8494859B2 (en) 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
US7565295B1 (en) 2003-08-28 2009-07-21 The George Washington University Method and apparatus for translating hand gestures
US7746986B2 (en) 2006-06-15 2010-06-29 Verizon Data Services Llc Methods and systems for a sign language graphical interpreter
US9282377B2 (en) 2007-05-31 2016-03-08 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
US8280434B2 (en) 2009-02-27 2012-10-02 Research In Motion Limited Mobile wireless communications device for hearing and/or speech impaired user
AU2017328161B2 (en) 2016-09-13 2022-02-17 Magic Leap, Inc. Sensory eyewear
US11438669B2 (en) * 2019-11-25 2022-09-06 Dish Network L.L.C. Methods and systems for sign language interpretation of media stream data
US11218666B1 (en) * 2020-12-11 2022-01-04 Amazon Technologies, Inc. Enhanced audio and video capture and presentation

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101005574A (zh) * 2006-01-17 2007-07-25 上海中科计算技术研究所 视频虚拟人手语编辑系统
US20140171036A1 (en) * 2009-11-18 2014-06-19 Gwendolyn Simmons Method of communication
CN102497513A (zh) * 2011-11-25 2012-06-13 中山大学 一种面向数字电视的视频虚拟人手语系统
US20170127115A1 (en) * 2014-06-30 2017-05-04 Lg Electronics Inc. Broadcast receiving device, method of operating broadcast receiving device, linking device for linking to broadcast receiving device, and method of operating linking device
CN108960126A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 手语翻译的方法、装置、设备及系统
CN109740447A (zh) * 2018-12-14 2019-05-10 深圳壹账通智能科技有限公司 基于人工智能的通信方法、设备及可读存储介质
CN110070065A (zh) * 2019-04-30 2019-07-30 李冠津 基于视觉以及语音智能的手语系统以及通讯方法
CN110598576A (zh) * 2019-08-21 2019-12-20 腾讯科技(深圳)有限公司 一种手语交互方法、装置及计算机介质
CN110931042A (zh) * 2019-11-14 2020-03-27 北京欧珀通信有限公司 同声传译方法、装置、电子设备以及存储介质
CN111354246A (zh) * 2020-01-16 2020-06-30 浙江工业大学 一种用于帮助聋哑人交流的系统及方法

Also Published As

Publication number Publication date
DE102022107251A1 (de) 2022-10-20
US11817126B2 (en) 2023-11-14
US20220335971A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
CN115223428A (zh) 转换手语
Kawas et al. Improving real-time captioning experiences for deaf and hard of hearing students
CN111226224B (zh) 用于翻译语音信号的方法及电子设备
US10025776B1 (en) Language translation mediation system
US20180089172A1 (en) Communication system supporting blended-language messages
US20170017642A1 (en) Second language acquisition systems, methods, and devices
CN111897939B (zh) 视觉对话方法、视觉对话模型的训练方法、装置及设备
US10672293B2 (en) Computer system methods for generating combined language content
US11928985B2 (en) Content pre-personalization using biometric data
Mehta et al. Automated 3D sign language caption generation for video
Syahidi et al. Bandoar: real-time text based detection system using augmented reality for media translator banjar language to Indonesian with smartphone
CN110211570A (zh) 同声传译处理方法、装置及设备
Hasnine et al. Vocabulary learning support system based on automatic image captioning technology
Inupakutika et al. Integration of NLP and Speech-to-text Applications with Chatbots
Rastgoo et al. A survey on recent advances in Sign Language Production
KR20200046665A (ko) 동작인식장치와 아바타를 이용한 수어 통역/번역 서비스 시스템
Abdullah et al. TeBook A mobile holy Quran memorization tool
CN117033599A (zh) 一种数字内容的生成方法及相关设备
CN116662496A (zh) 信息抽取方法、训练问答处理模型的方法及装置
Al Ameiri et al. M-learning and chatting using indexed Arabic sign language
KR102408941B1 (ko) 수어 통역을 제공하는 양방향 대화 시스템
Patel Image Caption Bot with Keras and Speech Generation for Visual Aid
CN114241279A (zh) 图文联合纠错方法、装置、存储介质及计算机设备
KR102098377B1 (ko) 퍼즐 게임으로 어순을 학습하는 외국어 학습 서비스 제공 방법
CN105702130A (zh) 手语翻译器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221021

WW01 Invention patent application withdrawn after publication