CN112639964A - 利用深度信息识别语音的方法、系统及计算机可读介质 - Google Patents
利用深度信息识别语音的方法、系统及计算机可读介质 Download PDFInfo
- Publication number
- CN112639964A CN112639964A CN201980052681.7A CN201980052681A CN112639964A CN 112639964 A CN112639964 A CN 112639964A CN 201980052681 A CN201980052681 A CN 201980052681A CN 112639964 A CN112639964 A CN 112639964A
- Authority
- CN
- China
- Prior art keywords
- features
- images
- image
- viseme
- depth information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000001662 opsonic effect Effects 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims abstract description 18
- 238000009826 distribution Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 210000001097 facial muscle Anatomy 0.000 claims description 6
- 230000006403 short-term memory Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 19
- 238000003062 neural network model Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/56—Cameras or camera modules comprising electronic image sensors; Control thereof provided with illuminating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Signal Processing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
在一种实施方式中,方法包括:接收多个第一图像,所述多个第一图像包括说出话语的说话人的至少一个口相关部,每个第一图像具有深度信息;利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及通过人机界面(HMI)输出模型利用所述词语序列来输出响应。
Description
相关申请的交叉引用
本申请要求于2018年9月4日递交的名称为“METHOD,SYSTEM,AND COMPUTER-READABLE MEDIUM FOR RECOGNIZING SPEECHUSING DEPTH INFORMATION”的美国申请NO.62/726,595的优先权。
本公开内容的背景
1.技术领域
本公开内容涉及语音识别领域,尤其涉及利用深度信息识别言语的方法、系统及计算机可读介质。
2.背景技术
自动语音识别可以用于识别人类的话语,生成可以用于使智能设备和机器人为各种应用程序执行动作的输出。唇读是一种利用视觉信息来识别人类的话语的语音识别。但唇读难以准确地生成输出。
发明内容
本公开内容的目的是提出用于利用深度信息识别语音的方法、系统及计算机可读介质。
在本公开内容的第一方面中,一种方法包括:
至少一个处理器接收多个第一图像,所述多个第一图像包括说出话语的说话者的至少一个口相关部,每个第一图像具有深度信息;
所述至少一个处理器利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;
所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及
一个人机界面(HMI)输出模型利用所述词语序列来输出响应。根据结合本公开内容第一方面的一个实施方式,该方法还包括:
当所述说话者正在说出所述话语时,一个相机生成照射所述说话者的舌头的红外光;以及
所述相述摄取所述多个第一图像。
根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器接收所述多个第一图像的步骤包括:所述至少一个处理器接收多个图像集,其中,每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有增强所述对应第二图像的深度信息的颜色信息;所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括:所述至少一个处理器利用所述多个图像集提取所述多个视位特征,其中,所述多个图像包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。
根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器利用所述多个第一图像集提取所述多个视位特征的步骤包括:
所述至少一个处理器生成对应于所述多个第一图像的多个口相关部嵌入(embedding),其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及
所述至少一个处理器追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。
根据结合本公开内容第一方面的一个实施方式,所述RNN包括双向长短期记忆(LSTM)网络。
根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:
所述至少一个处理器确定映射到所述多个视位特征的字符的多个概率分布;以及
所述至少一个处理器实现的一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布来确定所述词语序列。
根据结合本公开内容第一方面的一个实施方式,所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:
所述至少一个处理器实现的一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。
根据结合本公开内容第一方面的一个实施方式,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。
在本公开内容的第二方面中,一种系统包括至少一个存储器、至少一个处理器、以及一个人机界面(HMI)输出模型。至少一个存储器被配置成存储多个程序指令。至少一个处理器被配置成执行所述多个程序指令,所述多个程序指令使所述至少一个处理器执行多个步骤,所述多个步骤包括:
接收多个第一图像,所述多个第一图像包括说出话语的说话者的至少一个口相关部,每个第一图像具有深度信息;
利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;和
利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语。
所述人机界面(HMI)输出模型被配置成利用所述词语序列来输出响应。
根据结合本公开内容第二方面的一个实施方式,所述系统还包括一个相机,该相机被配置成:当所述说话者正在说出所述话语时,生成照射所述说话者的舌头的红外光;以及摄取所述多个第一图像。
根据结合本公开内容第二方面的一个实施方式,所述接收所述多个第一图像的步骤包括:接收多个图像集,其中每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有颜色信息,所述颜色信息增强所述对应第二图像的深度信息;所述利用所述多个第一图像提取所述多个视位特征包括:利用所述多个图像集提取所述多个视位特征,其中,所述多个图像集包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。
根据结合本公开内容第二方面的一个实施方式,所述利用所述多个第一图像提取所述多个视位特征的步骤包括:生成对应于所述多个第一图像的多个口相关部嵌入,其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及,追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。
根据结合本公开内容第二方面的一个实施方式,所述RNN包括双向长短期记忆(LSTM)网络。
根据结合本公开内容第二方面的一个实施方式,所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:确定映射到所述多个视位特征的字符的多个概率分布;以及,一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布确定所述词语序列。
根据结合本公开内容第二方面的一个实施方式,所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。
根据结合本公开内容第二方面的一个实施方式,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。
在本公开内容的第三方面中,提供了一种非易失性计算机可读介质,存储有多个程序指令。所述多个程序指令在由至少一个处理器执行时使所述至少一个处理器执行多个步骤,所述多个步骤包括:
接收多个第一图像,所述多个第一图像包括说出话语的说话者的至少一个口相关部,每个第一图像具有深度信息;
利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;
利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及
使一个人机界面(HMI)输出模型利用所述词语序列来输出响应。
根据结合本公开内容第三方面的一个实施方式,通过所述至少一个处理器执行的所述多个步骤还包括:使一个相机在所述说话者正在说出所述话语时生成照射所述说话者的舌头的红外光,并且摄取所述多个第一图像。
根据结合本公开内容第三方面的一个实施方式,所述接收所述多个第一图像的步骤包括:接收多个图像集,其中,每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有增强所述对应的第二图像的深度信息的颜色信息;利用所述多个第一图像提取所述多个视位特征的步骤包括:利用所述多个图像集提取所述多个视位特征,其中,所述多个图像集包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于舌头的深度信息和颜色信息获得的。
根据结合本公开内容第三方面的一个实施方式,所述利用所述多个第一图像来提取所述多个视位特征的步骤包括:
生成对应于所述多个第一图像的多个口相关部嵌入,其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及
追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。
附图说明
为了更清楚地说明本公开内容的实施方式或相关技术,对将在实施方式中描述的以下附图进行简要介绍。明显地,这些附图仅仅是本公开内容的一些实施方式,本领域技术人员可以在不付出创造性劳动的前提下根据这些附图获得其他附图。
图1是示出本公开内容的一种实施方式中一个移动电话用作人机界面(HMI)系统以及所述HMI系统的多个硬件模块的示意图。
图2是示出本公开内容的一种实施方式中,包括说出话语的说话者的至少一个口相关部的多个图像的示意图。
图3是示出本公开内容的一种实施方式中,所述HMI系统的HMI控制模块的软件模块和相关联硬件模块的框图。
图4是示出本公开内容的一种实施方式中,在所述HMI系统的语音识别模块中的神经网络模型的框图。
图5是示出本公开内容的另一实施方式中,在所述HMI系统的语音识别模块中的神经网络模型的框图。
图6是示出本公开内容的一种实施方式中一种人机交互方法的流程图。
具体实施方式
参照附图,结合技术问题、结构特征、所实现的目的以及效果来详细地描述本公开内容的实施方式。具体地,本公开内容实施方式中的术语仅用于描述特定实施方式的用途,并非限制本发明。
如本文所使用的术语“利用”指的是一个对象被直接采用以执行操作的情况,或者该对象被至少一个中间操作修改并且经修改的对象被直接采用以执行操作的情况。
图1是本公开内容的一种实施方式的示意图,示出被说话者150用作人机界面(HMI)系统的移动电话100以及所述HMI系统的硬件模块。参阅图1,说话者150使用移动电话100作为HMI系统,该HMI系统允许说话者150通过视觉言语与HMI系统中的HMI输出模块122进行交互。移动电话100包括一个深度相机102、一个RGB相机104、一个存储模块105、一个处理器模块106、一个存储器模块108、至少一个天线110、一个显示模块112以及一个总线114。HMI系统包括一个HMI输入模块118、一个HMI控制模块120以及一个HMI输出模块122,并且能够利用的替代源,例如一个存储模块105或一个网络170。
深度相机102被配置成生成多个图像di1至dit(如图2所示),上述图像包括在说出话语的人的至少一个口相关部。每个图像di1至dit具有深度信息。深度相机102可以为下述一个红外(IR)相机:当说话者150正在说出话语时,该红外相机生成照射说话者150的至少一个口相关部的红外光,并摄取多个图像di1至dit。IR相机的示例包括一个飞行时间相机和一个结构光相机。深度信息还可以用亮度信息进行增强。可替代地,深度相机102可以是单个RGB相机。单个RGB相机的示例更详细地描述于“Depth map prediction from a singleimage using a multi-scale deep network,”David Eigen,Christian Puhrsch,and RobFergus,arXiv preprint arXiv:1406.2283v1,2014。仍可替代地,深度相机102可以是通过例如两个RGB相机形成的一个立体相机。
RGB相机104被配置成摄取多个图像ri1至rit(如图2所示),上述图像包括说出话语的说话者150的至少一个口相关部。每个图像ri1至rit具有颜色信息。RGB相机104可以替代地用其他类型的彩色相机例如一个CMYK相机替换。RGB相机104和深度相机102可以为单独的相机,它们被配置成使得多个图像ri1至rit中的对象对应于多个图像di1至dit中的对象。每个图像ri1,…,或rit中的颜色信息对对应多个图像di1,…,或dit中的深度信息进行增强。RGB相机104和深度相机102可以可替代地被组合成一个RGBD相机。RGB相机104可以为可选的。
深度相机102和RGB相机104用作HMI输入模块118,以用于输入多个图像di1至dit以及多个图像ri1至rit。说话者150可以无声地或有声地说出话语。因为深度相机102利用红外光照射说话者150,所以HMI输入模块118可以将说话者150定位在弱光条件的环境中。多个图像di1至dit以及多个图像ri1至rit可以被实时利用,例如用于言语口述,或者可以被记录并随后利用,例如用于转录视频。当多个图像di1至dit和多个图像ri1至rit被记录用于随后利用时,HMI控制模块120可以不从HMI输入模块118直接接收多个图像di1至dit和多个图像ri1至rit,而可以从可替代的源诸如存储模块105或一个网络170接收多个图像di1至dit和多个图像ri1至rit。
存储器模块108可以为包括至少一个存储器的非易失性计算机可读介质,该存储器存储能够由处理器模块106执行的程序指令。处理器模块106包括至少一个处理器,该处理器经由总线114直接地或间接地向深度相机102、RGB相机104、存储模块105、存储器模块108、至少一个天线110、显示模块112发送信号,和/或直接地或间接地从它们接收信号。该至少一个处理器被配置成执行多个程序指令,这将该至少一个处理器配置为HMI控制模块120。HMI控制模块120控制HMI输入模块118生成多个图像di1至dit和多个图像ri1至rit,对多个图像di1至dit和多个图像ri1至rit进行语音识别,以及控制HMI输出模块122基于语音识别的结果来生成响应。
至少一个天线110被配置成生成至少一个无线电信号,该无线电信号携载直接或间接地从语音识别的结果中得出的信息。至少一个天线110用作HMI输出模块122中之一。当响应是例如至少一个蜂窝无线电信号时,该至少一个蜂窝无线电信号可以携载例如从一个口述指令直接得出的用以发送例如一个(短消息服务)SMS消息的内容信息。当响应是例如至少一个Wi-Fi无线电信号时,该至少一个Wi-Fi无线电信号可以携载例如直接从一个口述指令得出的用以利用关键字进行网络搜索的关键字信息。显示模块112被配置成生成携载直接或间接地从语音识别的结果得出的信息的光。显示模块112用作HMI输出模块122中之一。当响应是例如正在显示的视频的光时,正在显示的视频的光可以携载例如从一个口述指令间接地得出的用以播放或暂停视频的期望观看的内容。当响应是例如显示的图像的光时,上述显示的图像的光可以携载例如直接从语音识别的结果得出的用于输入到移动电话100的文本。
图1中的HMI系统为移动电话100。其他类型的HMI系统,例如未将HMI输入模块、HMI控制模块以及HMI输出模块集成于同一装置中的视频游戏系统,也在本公开内容的涵盖范围内。
图2是本公开内容的一种实施方式的示意图,示出包括说出话语的说话者150(如图1所示)的至少一个口相关部的多个图像di1至dit以及多个图像ri1至rit的图。多个图像di1至dit由深度相机102(如图1所示)拍摄。每个图像di1至dit都具有深度信息。该深度信息反映了说话者150的至少一个口相关部的被测量单元如何相对于说话者150进行前后定位的。说话者150的口相关部包括舌头204。说话者150的口相关部还可以包括嘴唇202、牙齿206、以及面部肌肉208。多个图像di1至dit包括在说出话语的说话者150的面部。多个图像ri1至rit由RGB相机104拍摄。每个图像ri1至rit都具有颜色信息。该颜色信息反映了说话者150的至少一个口相关部的被测量单元的颜色如何不同。为了简单起见,在说出话语的说话者150的仅面部被显示在多个图像di1至dit中,而其他对象例如说话者150的其他的身体部分以及其他人都被隐藏。
图3是本公开内容的一种实施方式的框图,示出HMI系统的HMI控制模块120(如图1所示)的软件模块以及相关联硬件模块的框图。HMI控制模块120包括一个相机控制模块302、一个语音识别模块304、一个天线控制模块312以及一个显示控制模块314。一个语音识别模块304包括一个面部检测模块306、一个面部对准模块308以及一个神经网络模型310。
相机控制模块302被配置成使深度相机102在说话者150正在说出话语时生成照射说话者150(如图1所示)的至少一个口相关部的红外光,并且拍摄多个图像di1至dit(如图2所示),以及使RGB相机104拍摄多个图像ri1至rit(如图2所述)。
语音识别模块304被配置成对多个图像ri1至rit和多个图像di1至dit执行语音识别。面部检测模块306被配置成在多个图像di1至dit和多个图像ri1至rit中的每个图像的场景中检测说话者150的面部。面部对准模块308被配置成使检测的面部相对于参考基准对准,以生成具有RGBD通道的多个图像x1至xt(如图4所示)。通过例如在面部检测和面部对准中的一者或两者期间执行裁剪和缩放,多个图像x1至xt可以包括在说出话语的说话者150的仅面部并且具有一致的尺寸,或者可以包括在说出话语的说话者150的面部的仅一部分区域并且具有一致的尺寸。针对每个所检测的面部,面部对准模块308可以不识别一组面部标志。神经网络模型310被配置成接收一个时序输入序列,该序列是图像di1至dit,并且利用深度学习来输出一个词语序列。
天线控制模块312被配置成使至少一个天线110基于作为语音识别的结果的词语序列来生成响应。显示控制模块314被配置成使显示模块112基于作为语音识别的结果的词语序列来生成响应。
图4是本公开内容的一种实施方式的框图,示出HMI系统中的语音识别模块304(如图3所示)中的神经网络模型310。参阅图4,神经网络模型310包括多个卷积神经网络(CNNs)CNN1至CNNt、由多个前向长短期记忆(LSTM)单元FLSTM1至FLSTMt以及多个反向LSTM单元BLSTM1至BLSTMt形成的递归神经网络(RNN)、多个聚合单元AGG1至AGGt、多个全连接网络FC1至FCt以及一个连接时序分类(CTC)损失层402。
各CNNs即CNN1至CNNt中的每一个被配置成从图像x1至xt中的对应的多个图像x1,…,或xt来提取特征以及将对应的多个图像x1,…,或xt映射到对应的口相关部嵌入e1,…,或et,该口相关部嵌入是在口相关部嵌入空间的向量。对应的口相关部嵌入e1,…,或et包括下述元素:上述元素中的每个元素是关于图2所描绘的口相关部的特性的量化信息。口相关部的特性可以是该口相关部的一维(1D)特性、二维(2D)特性、或者三维(3D)特性。对应的多个图像x1,…,或xt的深度信息可以用于计算口相关部的1D特性、2D特性、或者3D特性的量化信息。对应的多个图像x1,…,或xt的颜色信息可以用于计算口相关部的1D特性或者2D特性的量化信息。对应的多个图像x1,…,或xt的深度信息和颜色信息两者可以用于计算口相关部的1D特性、2D特性、或者3D特性的量化信息。口相关部的特性可以例如为嘴唇202的形状或位置、舌头204的形状或位置、牙齿206的形状或位置、以及面部肌肉208的形状或位置。例如舌头204的位置可以为舌头204的相对于例如牙齿206的相对位置。舌头204相对于牙齿206的相对位置可以用于区分话语中的“leg”与“egg”。深度信息可以更好地追踪口相关部的形变,而颜色信息可以对口相关部的形状进行更好地边缘感知。
各CNNs即CNN1至CNNt中的每一个包括多个交错的卷积层(例如,空间或时空卷积)、多个非线性激活函数(例如,ReLU、PReLU)、最大池化层以及多个可选的全连接层。各CNNs即CNN1至CNNt中的每一个的层的示例都更详细地描述于“FaceNet:A unified embedding forface recognition and clustering,”Florian Schroff,Dmitry Kalenichenko,andJames Philbin,arXiv preprint arXiv:1503.03832,2015.
RNN被配置成追踪口相关部的形变使得考虑以多个口相关部嵌入e1至et所反映的话语的语境,以生成多个第一视位特征fvf1至fvft以及多个第二视位特征svf1至svft。视位特征是描述与视位相对应的口相关部的形变的高级特征。
RNN是包括LSTM单元FLSTM1至FLSTMt以及LSTM单元BLSTM1至BLSTMt的双向LSTM。前向LSTM单元FLSTM1被配置成接收口相关部嵌入e1,以及生成前向隐藏状态fh1和第一视位特征fvf1。每个前向LSTM单元FLSTM2,…,或FLSTMt-1被配置成接收对应的口相关部嵌入e2,…,或et-1和前向隐藏状态fh1,…,或fht-2,以及生成前向隐藏状态fh2,…,或fht-1和第一视位特征fvf2,…,或fvft-1。前向LSTM单元FLSTMt被配置成接收口相关部嵌入et和前向隐藏状态fht-1,以及生成第一视位特征fvft。反向LSTM单元BLSTM1被配置成接收口相关部嵌入et,以及生成反向隐藏状态bht和第二视位特征svft。每个反向LSTM单元BLSTMt-1,…,或BLSTM2被配置成接收对应的口相关部嵌入et-1,…,或e2和反向隐藏状态bht,…,或bh3,以及生成反向隐状态bht-1,…,或bh2和第二视位特征svf t-1,…,或svf2。反向LSTM单元BLSTM1被配置成接收口相关部嵌入e1和反向隐藏状态bh2,以及生成第二视位特征svf1。
前向LSTN单元FLSTM1至FLSTMt中的每一个以及反向LSTM单元BLSTM1至BLSTMt中的每一个的示例都更详细地描述于“Speech recognition with deep recurrent neuralnetworks,”Graves A,Mohamed AR,Hinton G,In IEEE International Conference onAcoustics,Speech and Signal Processing,pp.6645-6649,2016.
图4中的RNN是包括仅一个双向LSTM层的双向LSTM。其他类型的RNN,例如包括双向LSTM层的堆叠的双向LSTM、单向LSTM、双向门控递归单元(gated recurrent unit,GRU)、单向门控递归单元,仍在本公开内容的涵盖范围内。
聚合单元AGG1至AGGt中的每一个被配置成聚合对应的第一视位特征fvf1,…,或fvft以及对应的第二视位特征svf1,…,或svft,以生成对应的聚合输出v1,…,或vt。聚合单元AGG1至AGGt中的每一个可以通过串接将对应的第一视位特征fvf1,…,或fvft和对应的第二视位特征svf1,…,或svft进行聚合。
全连接网络FC1至FCt中的每一个被配置成将对应的聚合输出v1,…,或vt映射到字符空间,以及确定被映射到第一视位特征fvf1,…,或fvft和/或第二视位特征svf1,…,或svft的字符的概率分布y1,…,或yt。全连接网络FC1至FCt中的每一个可以为多层感知机(MLP)。可以利用Softmax函数来确定输出字符的概率分布。
CTC损失层402被配置成执行下述。接收被映射到多个第一视位特征fvf1至fvft和/或多个第二视位特征svf1至svft的字符的多个概率分布y1至yt。输出字符可以是字母或者空白标记。获得字符串的概率分布。每个字符串都是通过边缘化被定义为与该字符串等同的所有字符序列来获得的。词语序列是利用字符串的概率分布来获得的。词语序列至少包括一个词语。词语序列可以是一个词组或者一个语句。可以采用语言模型来获得词语序列。CTC损失层402的示例更详细地描述于“Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks,”Graves,S.Fernandez,F.Gomez,and J.Schmidhuber,In ICML,pp.369–376,2006.
神经网络模型310通过最小化CTC损失进行端到端的训练。在训练之后,神经网络模型310的参数被冻结,并且神经网络模型310被部署至移动电话100(如图1所示)。
图5是本公开内容的另一实施方式的框图。示出HMI系统中的语音识别模块304(如图3所示)的神经网络模型310b。参阅图5,神经网络模型310b包括观看一个图像编码器502、一个收听音频编码器504以及一个拼写字符解码器506。观看图像编码器502被配置成从多个图像x1至xt(图4中示例性示出)中提取多个视位特征。每个视位特征是利用多个图像x1,…,或xt中的口相关部(参照图2描述)的深度信息获得的。收听音频编码器504被配置成利用包括话语的声音的音频来提取多个音频特征。拼写字符解码器506被配置成利用视位特征和音频特征来确定与说出的话语相对应的词语序列。观看图像编码器502、收听音频编码器504和拼写字符解码器506是通过最小化条件损失进行训练的。用于语音识别的基于编码器-解码器的神经网络模型的示例更详细地描述于“Lip reading sentences in thewild,”Joon Son Chung,Andrew Senior,Oriol Vinyals,and Andrew Zisserman,arXivpreprint arXiv:1611.05358v2,2017。
图6是本公开内容的一种实施方式的流程图,示出用于人机交互的方法的流程。参阅图1至图5,用于人机交互的方法包括由HMI输入模块118执行的方法610、由HMI控制模块120执行的方法630、以及由HMI输出模块122执行的方法650。
在步骤632中,通过相机控制模块302使相机在说话者正在说出话语时生成照射说话者的舌头的红外光,并且摄取包括在说出话语的说话者的至少一个口相关部的多个第一图像。该相机为深度相机102。
在步骤612中,当说话者正在说出话语时,通过相机生成照射说话者的舌头的红外光。
在步骤614中,通过相机摄取多个第一图像。
在步骤634中,通过语音识别模块304从相机接收多个第一图像。
在步骤636中,利用多个第一图像来提取多个视位特征。步骤636可以包括:通过面部检测模块306、面部对准模块308和各CNNs即CNN1至CNNt来生成对应于第一图像的多个口相关部嵌入;以及追踪口相关部的形变,使得利用RNN来考虑以口相关部嵌入所反映的话语的语境,以通过RNN和聚合单元AGG1至AGGt生成视位特征。RNN由前向LSTM单元FLSTM1至FLSTMt以及反向LSTM单元BLSTM1至BLSTMt形成。可替代地,步骤636可以包括通过面部检测模块306和面部对准模块308、利用多个第一图像来生成多个第二图像;以及通过观看图像编码器502从第二图像中提取视位特征。
在步骤638中,利用多个视位特征来确定对应于说出的话语的词语序列。步骤638可以包括:通过全连接网络FC1至FCt来确定映射到多个视位特征的字符的多个概率分布;以及通过CTC损失层402、利用映射到多个视位特征的字符的概率分布来确定词语序列。可替代地,步骤638可以通过拼写字符解码器506来执行。
在步骤640中,使HMI输出模块利用词语序列来输出响应。当HMI输出模块为至少一个天线110时,使该至少一个天线110通过天线控制模块312生成响应。当HMI输出模块为显示模块112时,使该显示模块112通过显示控制模块314生成响应。
在步骤652中,通过HMI输出模块、利用词语序列来输出响应。
可替代地,在步骤632中,通过相机控制模块302使至少一个相机在说话者正在说出话语时生成照射说话者的舌头的红外光,并且摄取包括在说出话语的人的至少一个口相关部的多个第一图像。至少一个相机包括深度相机102以及RGB相机104。每个图像集is1,…,或ist包括图2中的图像di1,…,或dit和图像ri1,…,或rit。在步骤612中,当说话者正在说出话语时,通过深度相机102生成照射人的口相关部的红外光。在步骤614中,通过深度相机102以及RGB相机104来摄取多个图像集。在步骤634中,通过语音识别模块304从至少一个相机接收多个图像集。在步骤636中,通过面部检测模块306、面部对准模块308、各CNNs即CNN1至CNNt、RNN以及聚合单元AGG1至AGGt,利用多个图像集来提取多个视位特征。RNN由前向LSTM单元FLSTM1至FLSTMt以及反向LSTM单元BLSTM1至BLSTMt形成。可替代地,在步骤636中,通过面部检测模块306、面部对准模块308以及观看图像编码器502,利用图像集来提取多个视位特征。
一些实施方式具有以下特征和/或优点中的一种或其组合。在一种实施方式中,语音识别是通过下述来执行的:接收包括在说出话语的人的至少一个口相关部的多个图像,其中,每个图像都具有深度信息;以及利用第一图像来提取多个视位特征,其中,视位特征中的一个视位特征是利用所述第一图像中的一个第一图像的深度信息中人的舌头的深度信息来获得的。利用深度信息,可以追踪口相关部的形变,使得口相关部的3D形状和细微运动被考虑在内。因此,可以区分某些模糊的词语(如“leg”对“egg”)。在一种实施方式中,深度相机在人正在说出话语时利用红外光照射人的口相关部,并摄取图像。因此,允许人在弱光条件的环境种说出话语。
本领域的普通技术人员当理解,在本公开内容的实施方式中描述和公开的每个单元、模块、算法和步骤是利用电子硬件来实施的或用于计算机的软件与电子硬件的组合来实施的。这些功能是以硬件还是软件方式运行取决于技术方案的应用条件和设计要求。本领域普通技术人员可以使用不同的方式来实现每个特定应用的功能,而这种实现不应超出本公开内容的范围。
本领域的普通技术人员当理解,由于上述系统、设备和模块的工作过程基本相同,因此可以参考上述实施方式中的系统、设备和模块的工作过程。为了便于描述和简单,这些工作过程将不详述。
应当理解,本公开内容实施方式中所公开的系统、设备和方法可以通过其他方式实现。上述实施方式仅是示例性的。模块的划分仅基于逻辑功能,其他的划分在实现中是存在的。多个模块或组件可以组合或集成在另一系统中。一些特征也可以被省略或跳过。另一方面,所展示或讨论的相互耦合、直接耦合或通信耦合通过一些端口、设备或模块借助于电气形式、机械形式或其他形式运作,无论是间接地还是通信地。
为了说明而作为分离组件的模块在物理上是分离的或不是分离的。用于显示的模块可以是或不是物理模块,即,位于一个地方或分布在多个网络模块上。根据实施方式的目的使用部分或所有的模块。
此外,每个实施方式中的每个功能模块都可以集成在一个处理模块中,在物理上相独立,或在一个处理模块中集成有两个或两个以上的模块。
如果软件功能模块被实现并作为产品使用和销售,它可以存储在计算机的可读存储介质中。基于这种理解,本公开内容所提出的技术方案可以本质上或部分地以软件产品的形式实现。或者,技术方案中对传统技术有利的一部分可以以软件产品的形式实现。计算机中的软件产品存储在存储介质中,包括用于计算设备(如个人计算机、服务器或网络设备)的多个命令,以运行本公开内容的实施方式公开的全部或部分的步骤。存储介质包括USB磁盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、软盘或其他能够存储程序代码的介质。
虽然已经结合被认为是最实用和优选的实施方式描述了本公开内容,但是要理解的是,本公开内容不仅限于所公开的实施方式,而意在涵盖在不脱离所附权利要求的最广解读范围的情况下所作出的各种布置。
Claims (20)
1.一种方法,包括:
至少一个处理器接收多个第一图像,所述多个第一图像包括说出话语的说话者的至少一个口相关部,每个第一图像具有深度信息;
所述至少一个处理器利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;
所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及
一个人机界面(HMI)输出模型利用所述词语序列来输出响应。
2.根据权利要求1所述的方法,还包括:
当所述说话者正在说出所述话语时,一个相机生成照射所述说话者的舌头的红外光;以及
所述相机摄取所述多个第一图像。
3.根据权利要求1所述的方法,其中,
所述至少一个处理器接收所述多个第一图像的步骤包括:
所述至少一个处理器接收多个图像集,其中,每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有增强所述对应第二图像的深度信息的颜色信息;以及
所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括:
所述至少一个处理器利用所述多个图像集提取所述多个视位特征,其中,所述多个图像集包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。
4.根据权利要求1所述的方法,其中,所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括:
所述至少一个处理器生成对应于所述多个第一图像的多个口相关部嵌入,其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及
所述至少一个处理器追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。
5.根据权利要求4所述的方法,其中,所述RNN包括双向长短期记忆(LSTM)网络。
6.根据权利要求1所述的方法,其中,所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:
所述至少一个处理器确定映射到所述多个视位特征的字符的多个概率分布;以及
所述至少一个处理器实现的一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布来确定所述词语序列。
7.根据权利要求1所述的方法,其中,所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:
所述至少一个处理器实现的一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。
8.根据权利要求1所述的方法,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。
9.一种系统,包括:
至少一个存储器,配置成存储多个程序指令;
至少一个处理器,配置成执行所述多个程序指令,所述多个程序指令使所述至少一个处理器执行多个步骤,所述多个步骤包括:
接收多个第一图像,所述多个第一图像包括说出话语的说话者的至少一个口相关部,每个第一图像具有深度信息;
利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;和
利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及
一个人机界面(HMI)输出模型,配置成利用所述词语序列来输出响应。
10.根据权利要求9所述的系统,还包括:
一个相机,配置成:
当所述说话者正在说出所述话语时,生成照射所述说话者的舌头的红外光;以及
摄取所述多个第一图像。
11.根据权利要求9所述的系统,其中,
所述接收所述多个第一图像包括:
接收多个图像集,其中每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有颜色信息,所述颜色信息增强所述对应第二图像的深度信息;以及
所述利用所述多个第一图像提取所述多个视位特征包括:
利用所述多个图像集提取所述多个视位特征,其中,所述多个图像集包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。
12.根据权利要求9所述的系统,其中,所述利用所述多个第一图像提取所述多个视位特征的步骤包括:
生成对应于所述多个第一图像的多个口相关部嵌入,其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及
追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。
13.根据权利要求12所述的系统,其中,所述RNN包括双向长短期记忆(LSTM)网络。
14.根据权利要求9所述的系统,其中,所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:
确定映射到所述多个视位特征的字符的多个概率分布;以及
一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布确定所述词语序列。
15.根据权利要求9所述的系统,其中,所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括:
一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。
16.根据权利要求9所述的系统,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。
17.一种非易失性计算机可读介质,存储有多个程序指令,所述多个程序指令由至少一个处理器执行时使所述至少一个处理器执行多个步骤,所述多个步骤包括:
接收多个第一图像,所述多个第一图像包括说出话语的说话人的至少一个口相关部,每个第一图像具有深度信息;
利用所述多个第一图像提取多个视位特征,其中,所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的;
利用所述多个视位特征确定与所述说出的话语相对应的词语序列,所述词语序列包括至少一个词语;以及
使一个人机界面(HMI)输出模型利用所述词语序列来输出响应。
18.根据权利要求17所述的非易失性计算机可读介质,其中,所述步骤还包括:
使一个相机在所述说话者正在说出所述话语时生成照射所述说话者的舌头的红外光,并且摄取所述多个第一图像。
19.根据权利要求17所述的非易失性计算机可读介质,其中,
所述接收所述多个第一图像的步骤包括:
接收多个图像集,其中,每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像,所述对应第三图像具有增强所述对应的第二图像的深度信息的颜色信息;以及
所述利用所述多个第一图像提取所述多个视位特征的步骤包括:
利用所述多个图像集提取所述多个视位特征,其中,所述多个图像集包括第一图像集,所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于舌头的深度信息和颜色信息获得的。
20.根据权利要求17所述的非易失性计算机可读介质,其中,所述利用所述多个第一图像提取所述多个视位特征的步骤包括:
生成对应于所述多个第一图像的多个口相关部嵌入,其中,每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素;以及
追踪所述口相关部的形变,从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境,生成所述多个视位特征。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862726595P | 2018-09-04 | 2018-09-04 | |
US62/726595 | 2018-09-04 | ||
PCT/CN2019/102880 WO2020048358A1 (en) | 2018-09-04 | 2019-08-27 | Method, system, and computer-readable medium for recognizing speech using depth information |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112639964A true CN112639964A (zh) | 2021-04-09 |
Family
ID=69722741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980052681.7A Pending CN112639964A (zh) | 2018-09-04 | 2019-08-27 | 利用深度信息识别语音的方法、系统及计算机可读介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210183391A1 (zh) |
CN (1) | CN112639964A (zh) |
WO (1) | WO2020048358A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117121099A (zh) * | 2021-06-18 | 2023-11-24 | 渊慧科技有限公司 | 自适应视觉语音识别 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11069357B2 (en) * | 2019-07-31 | 2021-07-20 | Ebay Inc. | Lip-reading session triggering events |
US20230106951A1 (en) * | 2021-10-04 | 2023-04-06 | Sony Group Corporation | Visual speech recognition based on connectionist temporal classification loss |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937268A (zh) * | 2009-06-30 | 2011-01-05 | 索尼公司 | 基于视觉唇形识别的设备控制 |
US20110257971A1 (en) * | 2010-04-14 | 2011-10-20 | T-Mobile Usa, Inc. | Camera-Assisted Noise Cancellation and Speech Recognition |
CN102314595A (zh) * | 2010-06-17 | 2012-01-11 | 微软公司 | 用于改善话音识别的rgb/深度相机 |
US20140122086A1 (en) * | 2012-10-26 | 2014-05-01 | Microsoft Corporation | Augmenting speech recognition with depth imaging |
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN106504751A (zh) * | 2016-08-01 | 2017-03-15 | 深圳奥比中光科技有限公司 | 自适应唇语交互方法以及交互装置 |
CN107169402A (zh) * | 2016-03-08 | 2017-09-15 | 福特全球技术公司 | 车辆车道定位 |
CN107944379A (zh) * | 2017-11-20 | 2018-04-20 | 中国科学院自动化研究所 | 基于深度学习的眼白图像超分辨率重建与图像增强方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101101752B (zh) * | 2007-07-19 | 2010-12-01 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
EP2618310B1 (en) * | 2012-01-17 | 2014-12-03 | NTT DoCoMo, Inc. | Computer-implemented method and apparatus for animating the mouth of a face |
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
US10699705B2 (en) * | 2018-06-22 | 2020-06-30 | Adobe Inc. | Using machine-learning models to determine movements of a mouth corresponding to live speech |
-
2019
- 2019-08-27 CN CN201980052681.7A patent/CN112639964A/zh active Pending
- 2019-08-27 WO PCT/CN2019/102880 patent/WO2020048358A1/en active Application Filing
-
2021
- 2021-02-25 US US17/185,200 patent/US20210183391A1/en not_active Abandoned
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937268A (zh) * | 2009-06-30 | 2011-01-05 | 索尼公司 | 基于视觉唇形识别的设备控制 |
US20110257971A1 (en) * | 2010-04-14 | 2011-10-20 | T-Mobile Usa, Inc. | Camera-Assisted Noise Cancellation and Speech Recognition |
CN102314595A (zh) * | 2010-06-17 | 2012-01-11 | 微软公司 | 用于改善话音识别的rgb/深度相机 |
US20140122086A1 (en) * | 2012-10-26 | 2014-05-01 | Microsoft Corporation | Augmenting speech recognition with depth imaging |
US20170011738A1 (en) * | 2015-07-09 | 2017-01-12 | Google Inc. | Generating acoustic models |
CN107169402A (zh) * | 2016-03-08 | 2017-09-15 | 福特全球技术公司 | 车辆车道定位 |
CN106504751A (zh) * | 2016-08-01 | 2017-03-15 | 深圳奥比中光科技有限公司 | 自适应唇语交互方法以及交互装置 |
CN107944379A (zh) * | 2017-11-20 | 2018-04-20 | 中国科学院自动化研究所 | 基于深度学习的眼白图像超分辨率重建与图像增强方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117121099A (zh) * | 2021-06-18 | 2023-11-24 | 渊慧科技有限公司 | 自适应视觉语音识别 |
Also Published As
Publication number | Publication date |
---|---|
US20210183391A1 (en) | 2021-06-17 |
WO2020048358A1 (en) | 2020-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621991B2 (en) | Joint neural network for speaker recognition | |
US20210183391A1 (en) | Method, system, and computer-readable medium for recognizing speech using depth information | |
CN112088315A (zh) | 多模式语音定位 | |
WO2016172872A1 (zh) | 用于验证活体人脸的方法、设备和计算机程序产品 | |
KR101887637B1 (ko) | 로봇 시스템 | |
Minotto et al. | Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM | |
Fenghour et al. | Deep learning-based automated lip-reading: A survey | |
CN108920640B (zh) | 基于语音交互的上下文获取方法及设备 | |
CN112889108A (zh) | 使用视听数据进行说话分类 | |
KR102167760B1 (ko) | 수어동작 인식 처리절차 및 움직임 추적 Pre-trained 모델을 이용한 수어동작 분석 알고리즘 시스템 | |
KR20120120858A (ko) | 영상통화 서비스 및 그 제공방법, 이를 위한 영상통화서비스 제공서버 및 제공단말기 | |
US10388325B1 (en) | Non-disruptive NUI command | |
US11842745B2 (en) | Method, system, and computer-readable medium for purifying voice using depth information | |
Kadyrov et al. | Speaker recognition from spectrogram images | |
KR20160049191A (ko) | 헤드 마운티드 디스플레이 디바이스의 제공방법 | |
Pu et al. | Review on research progress of machine lip reading | |
Goh et al. | Audio-visual speech recognition system using recurrent neural network | |
Vayadande et al. | Lipreadnet: A deep learning approach to lip reading | |
Shirakata et al. | Lip reading using facial expression features | |
CN115565534A (zh) | 多模态语音识别方法、装置、设备及存储介质 | |
Melnyk et al. | Towards computer assisted international sign language recognition system: a systematic survey | |
Chand et al. | Survey on Visual Speech Recognition using Deep Learning Techniques | |
Tapu et al. | Face recognition in video streams for mobile assistive devices dedicated to visually impaired | |
Berkol et al. | Lip Reading Using Various Deep Learning Models with Visual Turkish Data | |
Bannat et al. | A multimodal human-robot-dialog applying emotional feedbacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |