CN114639158A - 计算机交互方法、设备和程序产品 - Google Patents
计算机交互方法、设备和程序产品 Download PDFInfo
- Publication number
- CN114639158A CN114639158A CN202011380231.1A CN202011380231A CN114639158A CN 114639158 A CN114639158 A CN 114639158A CN 202011380231 A CN202011380231 A CN 202011380231A CN 114639158 A CN114639158 A CN 114639158A
- Authority
- CN
- China
- Prior art keywords
- characters
- sequence
- poses
- computer
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/018—Input/output arrangements for oriental characters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
- G06V10/85—Markov-related models; Markov random fields
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开的实施例提供了计算机交互方法、设备和程序产品。该方法包括:响应于对电子设备的输入的触发,获取呈现用户的给定部位的多个图像;基于给定部位在多个图像中的相应姿态来确定对应的字符序列,字符序列中的相应字符选自预定义字符集,预定义字符集中的多个字符分别对应给定部位的不同姿态;以及基于字符序列来确定输入到电子设备的计算机指令。通过该方案,用户可以方便且灵活地通过给定部位(例如,手部)的姿态来执行对电子设备的输入。
Description
技术领域
本公开的实施例涉及计算机技术领域,并且更具体地,涉及计算机交互方法、设备和计算机程序产品。
背景技术
在电子设备的使用过程中,用户经常需要向电子设备输入交互指令。例如,在初始访问电子设备时可能要求用户输入验证信息,以检查该用户是否是该设备的合法用户。在访问电子设备期间,用户可能需要通过输入各种控制命令来操作电子设备。当前,用户借助各种输入设备,诸如触摸板、键盘、鼠标等来执行输入。这些输入设备通常要求用户对虚拟或物理键盘的手动触摸、按压或点击等操作。
然而,在一些情况下,输入设备可能对用户不可用,或者用户不方便操作虚拟或物理键盘。这为与电子设备的顺畅交互带来了阻碍。因此,期望能够提供更方便多样的交互手段。
发明内容
本公开的实施例提供了一种计算机交互方案。
在本公开的第一方面,提供了一种计算机交互方法。该方法包括响应于对电子设备的输入的触发,获取呈现用户的给定部位的多个图像;基于给定部位在多个图像中的相应姿态来确定对应的字符序列,字符序列中的相应字符选自预定义字符集,预定义字符集中的多个字符分别对应给定部位的不同姿态;以及基于字符序列来确定输入到电子设备的计算机指令。
在本公开的第二方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及存储有计算机可执行指令的至少一个存储器,至少一个存储器和计算机可执行指令被配置为与至少一个处理器一起使得电子设备执行动作。动作包括响应于对电子设备的输入的触发,获取呈现用户的给定部位的多个图像;基于给定部位在多个图像中的相应姿态来确定对应的字符序列,字符序列中的相应字符选自预定义字符集,预定义字符集中的多个字符分别对应给定部位的不同姿态;以及基于字符序列来确定输入到电子设备的计算机指令。
在本公开的第三方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括计算机可执行指令,计算机可执行指令在被执行时使设备响应于对电子设备的输入的触发,获取呈现用户的给定部位的多个图像;基于给定部位在多个图像中的相应姿态来确定对应的字符序列,字符序列中的相应字符选自预定义字符集,预定义字符集中的多个字符分别对应给定部位的不同姿态;以及基于字符序列来确定输入到电子设备的计算机指令。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了本公开实施例可以在其中被实施的环境的示意图;
图2示出了根据本公开的一些实施例的计算机交互过程的流程图;
图3A至图3C示出了根据本公开的一些实施例的预定义字符的姿态的示例;
图4示出了根据本公开的一些实施例的计算机交互系统的框图;
图5示出了根据本公开的一些实施例的不同卷积滤波器的示例结构;
图6示出了根据本公开的一些实施例的模型压缩的示例;以及
图7示出了可以用来实施本公开的实施例的示例设备的框图。
具体实施方式
下面将参考附图中示出的若干示例实施例来描述本公开的原理。虽然附图中显示了本公开的优选实施例,但应当理解,描述这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“机器学习”指的是涉及高性能计算、机器学习和人工智能算法的处理。在本文中,术语“机器学习模型”也可以称为“学习模型”、“学习网络”、“网络模型”、或“模型”。“神经网络”或“神经网络模型”是一种深度学习模型。概括来说,机器学习模型能够接收输入数据并且基于输入数据执行预测和输出预测结果。
机器学习模型可以包括多个处理层,每个处理层具有多个处理单元。处理单元有时也称为卷积核。在卷积神经网络(CNN)的卷积层中,处理单元称为卷积核或卷积滤波器。每个处理层中的处理单元基于对应的参数对该处理层的输入执行相应变化。处理层的输出被提供作为下一处理层的输入。机器学习模型的第一个处理层的输入是机器学习模型的模型输入,最后一个处理层的输出是机器学习模型的模型输出。中间处理层的输入有时也称为机器学习模型提取的特征。机器学习模型的处理单元的全部参数的值形成机器学习模型的参数值集合。
机器学习主要可以划分为三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的机器学习模型可以使用大量的训练样本进行训练,不断迭代,直到机器学习模型能够从训练样本中获得一致的、与人类智慧所能够做出的推理类似的推理。机器学习模型通过训练,可以被认为能够从训练数据中学习从输入到输出之间的映射或关联关系。经过训练后,机器学习模型的参数值集合被确定。在测试阶段,可以利用测试样本对已训练的机器学习模型进行测试,以确定机器学习模型的性能。在应用阶段,机器学习模型可以被用于基于训练得到的参数值集合,对实际的输入数据进行处理,以给出对应的输出。
如以上提及的,除经由输入设备提供的虚拟或物理键盘进行输入外,期望提供更方便多样的交互手段。
本公开的示例实施例提出了一种计算机交互方案。该方案通过构建用户的给定部位的多个姿态与预定义字符集之间的对应关系来执行计算机交互。在交互过程中,捕获用户的给定部位的多个图像并确定给定部位在多个图像中的多个姿态对应的字符序列。多个字符序列被用于确定输入到电子设备的对应计算机指令。
通过该方案,用户可以方便且灵活地通过给定部位(例如,手部)的姿态来执行对电子设备的输入。输入可以通过图像或视频捕获方式来捕获,而无需用户操作物理或虚拟键盘。这对于没有提供键盘输入的设备不可用或者用户不方便操作键盘(例如,盲人等)的情况下特别有用。此外,通过用户姿态来执行输入还可以进一步提高电子设备使用的安全性,避免恶意程序通过窃取键盘输入或者通过分析用户在键盘上的击键模式来获取保密信息(例如验证信息)。
图1示出了本公开实施例可以在其中被实施的环境100的示意图。在图1的环境中,用户130期望向电子设备,例如电子设备120-1或120-2执行输入。电子设备可以是任何类型的终端设备或者服务端设备。在图1的示例中,电子设备120-1被示出为台式计算机,电子设备120-2被示出为移动电话。用户130要实现输入的电子设备120-1和120-2可以被统称为或单独称为电子设备120。
应当理解,图1仅给出了关于电子设备120以及信息的键入方式的一些示例。支持用户执行键入的电子设备120可以包括任何类型的移动终端、固定终端或便携式终端,包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。电子设备120还可以包括能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
如图1所示,环境100包括计算机交互系统110。计算机交互系统110被配置为实现用户与电子设备的交互。根据本公开的实施例,计算机交互系统110获取用户130的多个图像102-1、102-2、……102-N(其中N为大于1的整数)用于确定用户130对电子设备120期望输入。在本文中,用户130对电子设备120的输入被视为计算机指令106,可以用于控制电子设备120执行相应操作。
计算机交互系统110可以包括或被实现为具有计算能力的任何计算系统或服务器。在一些情况中,计算机交互系统110可能是处理和/或存储资源有限的计算设备,例如是终端设备,诸如移动电话、膝上型计算机、台式计算机、平板计算机、物联网(IoT)的边缘计算设备、边缘网关等。虽然在图1中被示出为分离的系统,在一些实施例中,计算机交互系统110可以被集成到电子设备120中,用于执行针对该电子设备的计算机指令的输入。
下文将参考附图来更详细地讨论本公开中的计算机交互的示例实施例。
首先参考图2,其示出了根据本公开的一些实施例的计算机交互过程200的流程图。计算机交互过程200可以由计算机交互系统110来实现。为便于讨论,参考图1来讨论过程200。
在过程200的框210,计算机交互系统110获取呈现用户120的给定部位的多个图像102-1、102-2、……、102-N等。为便于讨论,图像102-1、102-2、……、102-N在下文中有时统称或单独为图像102。多个图像102在对电子设备120的输入被触发时获取。
多个图像102可以通过图像捕获设备来捕获。图像捕获设备例如可以是相机、摄像头等任何可以采集图像的设备。图像捕获设备例如可以被集成在电子设备120内,或者可以是电子设备120外部。图像捕获设备例如可以在用户130要向电子设备执行输入时被触发执行图像捕获。在一些实施例中,用户130在执行输入时可以位于电子设备120附近。在一些实施例中,多个图像102例如可以是被离散采集的多个静态图像。在一些实施例中,可以采集动态图像,例如一段视频,并从中提取多张图像102。
如上文简单描述的,在本公开的实施例中,通过用户的给定部位的姿态来控制对电子设备120的输入。因此,多个图像102要呈现用户130的给定部位。在一些实施例中,给定部位可以是用户130的手部,包括单手或双手。手部通常可以被更灵活地控制执行更多的姿态,因此适合在交互中实现更多样的输入。在图1的示例中,给定部位包括用户130的手部132。
在一些实施例中,给定部位还可以包括用户130的手部以及其他部位(例如,面部、肩部等)。在其他实施例中,用于通过其姿态实现输入的部位还可以包括用户130的任何其他部位,例如可以是用户130的全身。
在框220,计算机交互系统110基于给定部位在多个图像102中的相应姿态来确定对应的字符序列。根据本公开的实施例,设置一个预定义字符集,该字符集中的各个字符分别对应给定部位的不同姿态。这样,通过从多个图像102中检测给定部位的相应姿态,可以确定每个图像102中给定部位的姿态对应的字符。
在一些实施例中,预定义字符集可以包括手语字符集。手语字符集包括由一种手语定义的多个自然语言字符,每个自然语言字符对应手部的一个姿态。手语是由于聋人交流的需要而产生的一种自然语言。手语也称为手势语,其主要通过手部的姿态(简称为“手势”)变化,包括手指的指式变化和动作等来代表相应的字符。通过顺序变化的手势,可以达到依次拼写出词、句的目的。由于手语能够实现视觉交流,因此适合被应用于基于视觉姿态的计算机交互中。
当前世界上已经存在一些在相应国家或地区中通用的手语。例如,美国手语(American Sign Language,ASL)是在英文语言环境中常见的手语,其包括与26个英文字母分别对应的26个手势。图3A示出了ASL的26个手势的示例300,其分别对应于A至Z的26个英文字母。在ASL中,每个手势对应的英文字母不区分大写形式和小写形式。在使用汉语的国家或地区,还存在汉语手语,其中每个手势对应于汉语拼音中的一个拼音字符。图3B示出了汉语手指拼音字符的30个手势的示例302,其分别对应于A至Z的26个拼音字母,以及ZH、CH、SH和NG的拼音组合。
在一些实施例中,除ASL和汉语手指拼音字符之外,还可以利用其它的手语,例如英语、澳大利亚和新西兰手语(BANZSL)、法语手语、日语手语(JSL)、阿拉伯手语、西班牙手语、墨西哥手语等等。不同手语定义有不同的手势,用于指示对应自然语言中的不同字符。在一些实施例中,在本公开的实施例中所使用的预定义字符集可以来自多种手语中的字符,只要这些字符对应的手势不同即可。
在一些实施例中,由于期望用手部的姿态来控制电子设备的输入,除利用手语中的多个字符之外,还可以涉及给定部位的其他姿态用于输入一个或多个特殊符号。用于指示特殊符号的姿态可以不同于手语中的姿态,例如可以用其他部位的姿态来指示,或者用于手部的不同姿态来指示。
在一些实施例中,考虑到计算机指令中常见的符号,需要设计的一个或多个特殊符号可以包括空格符(“”)、星号(“*”)、斜线符号(“/”)等。图3C示出了与特殊符号空格符(“”)、星号(“*”)、斜线符号(“/”)分别对应的三个示例手势322、324、326。应当理解,还可以利用其它手势或其他部位的姿态来指示这些特殊符号。
在一些实施例中,计算机交互系统110可以从每个图像102中标识呈现给定部位的图像区域104,并确定给定部位在图像区域104中的姿态。计算机交互系统110可以基于预定义字符集中的相应字符与给定部位的相应姿态之间的对应关系,例如图3A至图3C中所指示的手势与字符之间的对应关系,来确定所识别的每个姿态对应的字符。从多个图像102中所识别的字符组成字符序列。
在一些实施例中,为了更准确地识别图像102中所呈现的给定部位的姿态以确定字符序列,计算机交互系统110可以机器学习模型,特别是深度学习模型来执行姿态识别和字符序列确定。这在下文中更详细描述。
在框230,计算机交互系统110基于字符序列来确定输入到电子设备的计算机指令106。通过姿态识别,用户130的给定部位的姿态被转换为字符序列,该字符序列可以对应于基于文本的计算机指令,用于控制电子设备120。这样的计算机指令106在需要用户输入的不同应用中可以对应于不同指令。电子设备120将执行所输入的计算机指令106。
在一些实施例中,用户130可以在执行用户验证的输入。用户130可以通过给定部位的姿态,在电子设备120的验证框中输入用户验证需要的验证信息,例如用户名和/或密码等。用户名和密码例如可以包括多个字符。因此通过识别用户的给定部位的姿态对应的字符序列,可以将对应的用户名和/或密码输入到验证框中。电子设备120可以验证用户130是否是合法用户。
在一些实施例中,用户130可以在执行与计算机可执行命令相关的输入。用户130可以通过给定部位的姿态,在电子设备120的命令输入框中输入计算机可执行命令对应的文本指令,以控制电子设备120的操作,例如打开文件、返回主页。这些计算机可执行命令也由对应的文本序列指示。
计算机可执行指令还可以包括任何其他应用下的输入,本公开的实施例在此方面不受限制。
图4示出了根据一些实施例的计算机交互系统110的示例结构。如图4所示,计算机交互系统110包括已训练的多模态识别模型410,用于识别在多个图像102中呈现的给定部位(例如手部)的姿态。多模态识别模型410所识别的姿态分别对应预定义字符集中的字符。因此,基于预定义字符集中的相应字符与给定部位的相应姿态之间的对应关系,可以确定多个图像中的姿态对应的字符序列。
多模态识别模型410可以被训练为能够区分给定部位的各个状态,从而实现识别预定义字符集中的多个姿态对应的字符。每个姿态可以被认为是一种模态。在一些实施例中,多模态识别模型410可以被配置为深度神经网络(DNN)模型。多模态识别模型410可以被选择为适合视觉识别处理的DNN模型,例如,基于卷积神经网络(CNN)的模型。可以利用可用的或将来待开发的各种DNN模型配置来实现多模态识别模型410。
在一些实施例中,考虑到计算机交互系统110可能被实现在资源有限的设备中,例如被实现在电子设备120本身,为了在有限的计算、功率和存储空间基础上获得更准确的识别结果,多模态识别模型410可以被选择适合设备上或嵌入式应用的模型。例如,多模态识别模型410可以是MobileNet模型及其各种变形。MobileNet模型是一种轻量级模型,其具有小尺寸、低延时和低功耗的特点,从而能够满足资源受限应用中的需求。多模态识别模型410可以是用于实现姿态分类和识别的MobileNet模型。
图5示出了不同的CNN模型结构的卷积滤波器。卷积滤波器510是传统的标准卷积滤波器,每个CNN模型可以包括N个这样的卷积滤波器,每个滤波器的尺寸为Dk*M*Dk,其中M和Dk是大于1的整数。卷积滤波器520是基于深度上分别卷积(Depthwise SeparableConvolution)的滤波器,其尺寸为Dk*1*Dk。卷积滤波器520可以实现分解卷积,其将标准卷积运算分裂为深度上的卷积和多个逐点卷积(pointwise convolution),从而达到延迟性和准确度之间的权衡。卷积滤波器530是卷积滤波器520中实现逐点卷积的滤波器1*M*1。在一些实施例中,多模态识别模型410可以包括基于卷积滤波器520的CNN模型。
在一些实施例,为了进一步降低模型复杂度,同时维持准确度,多模态识别模型410在训练过程中通过模型剪枝或参数量化而被压缩。通常,大尺寸的模型具有更多的网络层和节点,这使得模型的存储空间要求和计算资源要求更高。为了能够将模型应用到资源有限的电子设备,例如移动电话之类的IoT设备,可以通过模型压缩来解决这个问题。模型压缩可以通过模型剪枝或参数量化来实现。
模型剪枝指的是从模型结构中移除冗余的网络层连接,从而可以删除不太重要的模型参数。图6示出了基于模型剪枝对多模态识别模型410的某个处理层610的剪枝过程。
如图6所示,处理层610要处理N个输入612-1至612-N(统称为或单独称为输入612)。输入612可以是任何要处理的数据或信息。处理层610具有用于处理相应输入612的处理单元,以获得对应的M个输出614-1至614-M(统称为或单独称为输出614)。N和M可以是大于等于1的正整数。每个输入614与一个或多个输入612关联。相关联的输入612在模型处理过程中用于确定对应的输出614。输入612与输出614的关联取决于模型配置。图6示出了全连接的示例,其中一个输出614与全部输入612关联。在其他示例中,一个输出614可能与一个或一些输入612关联。
图6中还示出了每个输入612对应的重要性值。通常,输入612的重要性值越大,意味着输入612更重要,并且在一些情况下该输入612对处理层的输出614的贡献可能也越大。在所确定的重要性值中,存在一些较小的重要性值,因此应用这些重要性值对应的输入612的重要性较低。图6仅示出了机器学习模型120的一个处理层610。机器学习模型120可以包括多个类似的处理层。
如图6所示,经过模型剪枝,可以从处理层410中删除较小的重要性值(即小于目标重要性值的重要性值)对应的输入。这样,可以获得压缩后的处理层620。由于处理层的输入被删除,在剪枝后的处理层620中,对应的输入不需要再被处理,例如输入612-2和612-4不需要被处理。对于多模态识别模型410的每个处理层,均可以执行类似的修剪。
在模型压缩中,参数量化指的是通过参数聚类或者取整的操作将一些参数合并,这样网络层之间的相同或相似连接可以由更少数量的参数来表示,从而节省存储空间。在参数量化时,参数聚类或取整可以通过使用更少的浮点数值来表示更多特征来实现。另一种方式是通过取整,将浮点数表示的参数值转换定点数表示的参数值,这可以节省存储空间。
在训练阶段,多模态识别模型410的训练数据可以包括多个训练图像。对于预定义字符集中每个字符对应的手势,可以提供一个或多个训练图像,以使得多模态识别模型410能够学习到如何识别出该手势。多个训练图像可以被标注有对应的姿态,该姿态例如由手势指示。可以利用各种已知的训练算法来训练多模态识别模型410,本公开的实施例在此方面不受限制。
在一些实施例中,为进一步提高字符序列的准确度,在多模态识别模型识别的结果基础上还可以执行进一步的校正。如图4所示,计算机交互系统110还可以包括语言模型420,其被配置为校正由多模态识别模型410识别的字符序列。计算机交互系统110然后可以确定与经校正的字符序列相对应的计算机指令。
语言模型420被配置为用于确定字符序列的概率分布的模型,以验证字符序列在特定语言下的合理性或准确度。给定一个字符序列(例如,长度为m个字符单元的字符序列),语言模型420可以确定整个字符序列的概率P(w1,…wm)。
语言模型420可以计算字符序列的贝叶斯概率。根据马尔科夫假设,即字符序列中每个字符受前一个字符影响,P(w1,…wm)的计算可以如以下公式(1):
P(w1,…wm)=P(w1)*P(w1|w2)*P(w3|w1w2)…*P(wm|w1…wm-1)
公式(1)
语言模型420通过依赖于语料库来计算每个序列w1,…wm的概率,即在相应语言下是否是合理的表示。
例如,假设从多个图像102识别的字符序列是“cd/homi”,其可以被划分为[cd,space,slash,homi]序列,其中space代表空格(“”),slash代表斜线符号(“/”)。语言模型420可以计算这个序列的概率,如下:
P(cd,space,slash,homi)
=P(cd)*P(space|cd)*P(slash|space)*P(homi|slash)
公式(2)
在这个示例中,通过概率计算,可以确定概率P(homi|slash)是一个较小值。这意味着在前一字符为斜线符号(slash)的情况下,字符序列之后出现“homi”的概率较小,因此“homi”可能是一个错误表示。在一些实施例中,还可以继续校正所识别到的字符序列中的错误表示。例如,可以确定与“homi”存在一个和两个字符的编辑距离的候选词。例如,与“homi”存在一个编辑距离的候选词指的是用另一个字符替换“homi”中的一个字符所生成的候选词。例如“home”是与“homi”具有一个编辑距离的候选词,其中“homi”中的一个字符“i”被替换为“e”。其他编辑距离对应的候选词也可以类似生成。在一些实施例中,还可以构建具有更多编辑距离(例如,三个和/或四个字符的编辑距离)的候选词。
然后,利用语言模型420来计算多个候选词与斜线符号(slash)的概率P(c|slash),其中c表示候选词。可以选择最大概率对应的候选词,即argmaxcP(c|slash),其可以被认为是校正后的词。以此方式,可以确定校正后的字符序列。
通常,语言模型420的复杂度和尺寸较低,也可以被嵌入到资源有限的电子设备中应用。
图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现图2的过程200。设备700可以被实现为或被包括在图1示出的计算机交互系统110。
如图所示,设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机可执行指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机可执行指令,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元701执行上文所描述的各个方法和处理,例如过程200。例如,在一些实施例中,过程200可被实现为计算机软件程序或计算机程序产品,其被有形地包含于机器可读介质,诸如非瞬态计算机可读介质,诸如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由CPU 701执行时,可以执行上文描述的过程200的一个或多个步骤。备选地,在其他实施例中,CPU 701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程200。
本领域的技术人员应当理解,上述本公开的方法的各个步骤可以通过通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本公开不限制于任何特定的硬件和软件结合。
应当理解,尽管在上文的详细描述中提及了设备的若干装置或子装置,但是这种划分仅仅是示例性而非强制性的。实际上,根据本公开的实施例,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
以上所述仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。
Claims (24)
1.一种计算机交互方法,包括:
响应于对电子设备的输入的触发,获取呈现用户的给定部位的多个图像;
基于所述给定部位在所述多个图像中的相应姿态来确定对应的字符序列,所述字符序列中的相应字符选自预定义字符集,所述预定义字符集中的多个字符分别对应给定部位的不同姿态;以及
基于所述字符序列来确定输入到所述电子设备的计算机指令。
2.根据权利要求1所述的方法,其中识别所述字符序列包括:
利用已训练的多模态识别模型来识别所述给定部位在所述多个图像中的相应姿态;以及
基于所述预定义字符集中的相应字符与给定部位的相应姿态之间的对应关系,确定所识别的相应姿态对应的所述字符序列。
3.根据权利要求2所述的方法,其中所述多模态识别模型在训练过程中通过模型剪枝或参数量化而被压缩。
4.根据权利要求1所述的方法,其中所述预定义字符集至少包括手语字符集,所述手语字符集包括与手部的多个姿态各自对应的多个自然语言字符。
5.根据权利要求4所述的方法,其中所述预定义字符集还包括至少一个特殊符号,所述至少一个特殊符号对应的姿态与所述多个自然语言字符各自对应的所述多个姿态均不同。
6.根据权利要求5所述的方法,其中所述至少一个特殊符号包括以下至少一项:空格符、星号和斜线符号。
7.根据权利要求4所述的方法,其中所述手语字符集包括美国手语(ASL)中的多个英文字母或汉语手语中的多个拼音字符。
8.根据权利要求1所述的方法,其中确定所述计算机指令包括:
利用已训练的语言模型来校正所述字符序列;以及
确定与经校正的所述字符序列相对应的计算机指令。
9.根据权利要求1所述的方法,其中所述计算机指令包括以下至少一项:与用户验证相关的输入,和计算机可执行命令的输入。
10.一种电子设备,包括:
至少一个处理器;以及
存储有计算机可执行指令的至少一个存储器,所述至少一个存储器和所述计算机可执行指令被配置为,与所述至少一个处理器一起,使得所述电子设备执行动作,所述动作包括:
响应于对电子设备的输入的触发,获取呈现用户的给定部位的多个图像;
基于所述给定部位在所述多个图像中的相应姿态来确定对应的字符序列,所述字符序列中的相应字符选自预定义字符集,所述预定义字符集中的多个字符分别对应给定部位的不同姿态;以及
基于所述字符序列来确定输入到所述电子设备的计算机指令。
11.根据权利要求10所述的设备,其中识别所述字符序列包括:
利用已训练的多模态识别模型来识别所述给定部位在所述多个图像中的相应姿态;以及
基于所述预定义字符集中的相应字符与给定部位的相应姿态之间的对应关系,确定所识别的相应姿态对应的所述字符序列。
12.根据权利要求11所述的设备,其中所述多模态识别模型在训练过程中通过模型剪枝或参数量化而被压缩。
13.根据权利要求10所述的设备,其中所述预定义字符集至少包括手语字符集,所述手语字符集包括与手部的多个姿态各自对应的多个自然语言字符。
14.根据权利要求13所述的设备,其中所述预定义字符集还包括至少一个特殊符号,所述至少一个特殊符号对应的姿态与所述多个自然语言字符各自对应的所述多个姿态均不同。
15.根据权利要求14所述的设备,其中所述至少一个特殊符号包括以下至少一项:空格符、星号和斜线符号。
16.根据权利要求13所述的设备,其中所述手语字符集包括美国手语(ASL)中的多个英文字母或汉语手语中的多个拼音字符。
17.根据权利要求10所述的设备,其中确定所述计算机指令包括:
利用已训练的语言模型来校正所述字符序列;以及
确定与经校正的所述字符序列相对应的计算机指令。
18.根据权利要求10所述的设备,其中所述计算机指令包括以下至少一项:与用户验证相关的输入,和计算机可执行命令的输入。
19.一种计算机程序产品,所述计算机程序产品被有形地存储在非易失性计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在被执行时使设备:
响应于对电子设备的输入的触发,获取呈现用户的给定部位的多个图像;
基于所述给定部位在所述多个图像中的相应姿态来确定对应的字符序列,所述字符序列中的相应字符选自预定义字符集,所述预定义字符集中的多个字符分别对应给定部位的不同姿态;以及
基于所述字符序列来确定输入到所述电子设备的计算机指令。
20.根据权利要求19所述的计算机程序产品,其中识别所述字符序列包括:
利用已训练的多模态识别模型来识别所述给定部位在所述多个图像中的相应姿态;以及
基于所述预定义字符集中的相应字符与给定部位的相应姿态之间的对应关系,确定所识别的相应姿态对应的所述字符序列。
21.根据权利要求19所述的计算机程序产品,其中所述预定义字符集至少包括手语字符集,所述手语字符集包括与手部的多个姿态各自对应的多个自然语言字符。
22.根据权利要求21所述的计算机程序产品,其中所述预定义字符集还包括至少一个特殊符号,所述至少一个特殊符号对应的姿态与所述多个自然语言字符各自对应的所述多个姿态均不同。
23.根据权利要求21所述的计算机程序产品,其中所述手语字符集包括美国手语(ASL)中的多个英文字母或汉语手语中的多个拼音字符。
24.根据权利要求19所述的计算机程序产品,其中确定所述计算机指令包括:
利用已训练的语言模型来校正所述字符序列;以及
确定与经校正的所述字符序列相对应的计算机指令。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011380231.1A CN114639158A (zh) | 2020-11-30 | 2020-11-30 | 计算机交互方法、设备和程序产品 |
US17/136,794 US11320914B1 (en) | 2020-11-30 | 2020-12-29 | Computer interaction method, device, and program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011380231.1A CN114639158A (zh) | 2020-11-30 | 2020-11-30 | 计算机交互方法、设备和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114639158A true CN114639158A (zh) | 2022-06-17 |
Family
ID=81385261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011380231.1A Pending CN114639158A (zh) | 2020-11-30 | 2020-11-30 | 计算机交互方法、设备和程序产品 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11320914B1 (zh) |
CN (1) | CN114639158A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11587362B2 (en) * | 2020-12-16 | 2023-02-21 | Lenovo (Singapore) Pte. Ltd. | Techniques for determining sign language gesture partially shown in image(s) |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100064261A1 (en) * | 2008-09-09 | 2010-03-11 | Microsoft Corporation | Portable electronic device with relative gesture recognition mode |
US9008973B2 (en) * | 2009-11-09 | 2015-04-14 | Barry French | Wearable sensor system with gesture recognition for measuring physical performance |
DE102010009738A1 (de) * | 2010-03-01 | 2011-09-01 | Institut für Rundfunktechnik GmbH | Anordnung zum Übersetzen von Lautsprache in eine Gebärdensprache für Gehörlose |
US8582867B2 (en) * | 2010-09-16 | 2013-11-12 | Primesense Ltd | Learning-based pose estimation from depth maps |
US8760395B2 (en) * | 2011-05-31 | 2014-06-24 | Microsoft Corporation | Gesture recognition techniques |
US9218058B2 (en) * | 2011-06-16 | 2015-12-22 | Daniel Bress | Wearable digital input device for multipoint free space data collection and analysis |
CN107643828B (zh) * | 2011-08-11 | 2021-05-25 | 视力移动技术有限公司 | 车辆、控制车辆的方法 |
US8793118B2 (en) * | 2011-11-01 | 2014-07-29 | PES School of Engineering | Adaptive multimodal communication assist system |
KR101757080B1 (ko) * | 2012-07-13 | 2017-07-11 | 소프트키네틱 소프트웨어 | 손위의 단일한 관심 포인트를 이용한 인간-컴퓨터 제스처 기반 동시 상호작용을 위한 방법 및 시스템 |
US8819812B1 (en) * | 2012-08-16 | 2014-08-26 | Amazon Technologies, Inc. | Gesture recognition for device input |
US8743052B1 (en) * | 2012-11-24 | 2014-06-03 | Eric Jeffrey Keller | Computing interface system |
JP5782061B2 (ja) * | 2013-03-11 | 2015-09-24 | レノボ・シンガポール・プライベート・リミテッド | 移動物体の動作を認識する方法および携帯式コンピュータ |
US9269012B2 (en) * | 2013-08-22 | 2016-02-23 | Amazon Technologies, Inc. | Multi-tracker object tracking |
EP2891950B1 (en) * | 2014-01-07 | 2018-08-15 | Sony Depthsensing Solutions | Human-to-computer natural three-dimensional hand gesture based navigation method |
TW201543268A (zh) * | 2014-01-07 | 2015-11-16 | Thomson Licensing | 用於使用手勢控制媒體播放之系統及方法 |
KR20150084524A (ko) * | 2014-01-14 | 2015-07-22 | 삼성전자주식회사 | 디스플레이 장치 및 이의 제어 방법 |
US10146318B2 (en) * | 2014-06-13 | 2018-12-04 | Thomas Malzbender | Techniques for using gesture recognition to effectuate character selection |
CN107690651B (zh) * | 2015-04-16 | 2022-06-28 | 罗伯特·博世有限公司 | 用于自动化手语识别的系统和方法 |
CN105607745A (zh) * | 2016-03-16 | 2016-05-25 | 京东方科技集团股份有限公司 | 显示控制电路、显示控制方法和显示装置 |
US10102423B2 (en) * | 2016-06-30 | 2018-10-16 | Snap Inc. | Object modeling and replacement in a video stream |
JP6301427B1 (ja) * | 2016-10-11 | 2018-03-28 | 株式会社日本総合研究所 | 自然言語処理装置、自然言語処理方法および自然言語処理プログラム |
US11847426B2 (en) * | 2017-11-08 | 2023-12-19 | Snap Inc. | Computer vision based sign language interpreter |
-
2020
- 2020-11-30 CN CN202011380231.1A patent/CN114639158A/zh active Pending
- 2020-12-29 US US17/136,794 patent/US11320914B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11320914B1 (en) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210264227A1 (en) | Method for locating image region, model training method, and related apparatus | |
US20210374334A1 (en) | Method for training language model, electronic device and readable storage medium | |
CN110036399B (zh) | 神经网络数据录入系统 | |
US12050881B2 (en) | Text translation method and apparatus, and storage medium | |
US9911052B2 (en) | System and method for superimposed handwriting recognition technology | |
US9807473B2 (en) | Jointly modeling embedding and translation to bridge video and language | |
US20190155504A1 (en) | Neural network for keyboard input decoding | |
US11669690B2 (en) | Method and apparatus for processing sematic description of text entity, and storage medium | |
US8542195B2 (en) | Method for optimization of soft keyboards for multiple languages | |
EP3702953B1 (en) | Electronic device for obfuscating and decoding data and method for controlling same | |
US20190213261A1 (en) | Translation device, translation method, and recording medium | |
US10599913B2 (en) | Face model matrix training method and apparatus, and storage medium | |
US10199036B2 (en) | Method and device for implementing voice input | |
CN110023930B (zh) | 利用神经网络和在线学习的语言数据预测 | |
WO2020220369A1 (en) | Method and system of utilizing unsupervised learning to improve text to content suggestions | |
KR102456535B1 (ko) | 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램 | |
WO2017005207A1 (zh) | 一种输入方法、输入装置、服务器和输入系统 | |
US20180314343A1 (en) | Text input system using evidence from corrections | |
WO2020220370A1 (en) | Method and system of utilizing unsupervised learning to improve text to content suggestions | |
JP2022502758A (ja) | 符号化方法、装置、機器およびプログラム | |
EP4060526A1 (en) | Text processing method and device | |
EP4390753A1 (en) | Text data processing method, neural network training method, and related devices | |
CN114330343A (zh) | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 | |
CN113761888A (zh) | 文本翻译方法、装置、计算机设备及存储介质 | |
US11320914B1 (en) | Computer interaction method, device, and program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |