CN112639964A

CN112639964A - 利用深度信息识别语音的方法、系统及计算机可读介质

Info

Publication number: CN112639964A
Application number: CN201980052681.7A
Authority: CN
Inventors: 林袁; 何朝文
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-09-04
Filing date: 2019-08-27
Publication date: 2021-04-09
Also published as: US20210183391A1; WO2020048358A1

Abstract

在一种实施方式中，方法包括：接收多个第一图像，所述多个第一图像包括说出话语的说话人的至少一个口相关部，每个第一图像具有深度信息；利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语；以及通过人机界面(HMI)输出模型利用所述词语序列来输出响应。

Description

利用深度信息识别语音的方法、系统及计算机可读介质

相关申请的交叉引用

本申请要求于2018年9月4日递交的名称为“METHOD,SYSTEM,AND COMPUTER-READABLE MEDIUM FOR RECOGNIZING SPEECHUSING DEPTH INFORMATION”的美国申请NO.62/726,595的优先权。

本公开内容的背景

1.技术领域

本公开内容涉及语音识别领域，尤其涉及利用深度信息识别言语的方法、系统及计算机可读介质。

2.背景技术

自动语音识别可以用于识别人类的话语，生成可以用于使智能设备和机器人为各种应用程序执行动作的输出。唇读是一种利用视觉信息来识别人类的话语的语音识别。但唇读难以准确地生成输出。

发明内容

本公开内容的目的是提出用于利用深度信息识别语音的方法、系统及计算机可读介质。

在本公开内容的第一方面中，一种方法包括：

至少一个处理器接收多个第一图像，所述多个第一图像包括说出话语的说话者的至少一个口相关部，每个第一图像具有深度信息；

所述至少一个处理器利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；

所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语；以及

一个人机界面(HMI)输出模型利用所述词语序列来输出响应。根据结合本公开内容第一方面的一个实施方式，该方法还包括：

当所述说话者正在说出所述话语时，一个相机生成照射所述说话者的舌头的红外光；以及

所述相述摄取所述多个第一图像。

根据结合本公开内容第一方面的一个实施方式，所述至少一个处理器接收所述多个第一图像的步骤包括：所述至少一个处理器接收多个图像集，其中，每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像，所述对应第三图像具有增强所述对应第二图像的深度信息的颜色信息；所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括：所述至少一个处理器利用所述多个图像集提取所述多个视位特征，其中，所述多个图像包括第一图像集，所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。

根据结合本公开内容第一方面的一个实施方式，所述至少一个处理器利用所述多个第一图像集提取所述多个视位特征的步骤包括：

所述至少一个处理器生成对应于所述多个第一图像的多个口相关部嵌入(embedding)，其中，每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素；以及

所述至少一个处理器追踪所述口相关部的形变，从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境，生成所述多个视位特征。

根据结合本公开内容第一方面的一个实施方式，所述RNN包括双向长短期记忆(LSTM)网络。

根据结合本公开内容第一方面的一个实施方式，所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：

所述至少一个处理器确定映射到所述多个视位特征的字符的多个概率分布；以及

所述至少一个处理器实现的一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布来确定所述词语序列。

所述至少一个处理器实现的一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。

根据结合本公开内容第一方面的一个实施方式，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。

在本公开内容的第二方面中，一种系统包括至少一个存储器、至少一个处理器、以及一个人机界面(HMI)输出模型。至少一个存储器被配置成存储多个程序指令。至少一个处理器被配置成执行所述多个程序指令，所述多个程序指令使所述至少一个处理器执行多个步骤，所述多个步骤包括：

接收多个第一图像，所述多个第一图像包括说出话语的说话者的至少一个口相关部，每个第一图像具有深度信息；

利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；和

利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语。

所述人机界面(HMI)输出模型被配置成利用所述词语序列来输出响应。

根据结合本公开内容第二方面的一个实施方式，所述系统还包括一个相机，该相机被配置成：当所述说话者正在说出所述话语时，生成照射所述说话者的舌头的红外光；以及摄取所述多个第一图像。

根据结合本公开内容第二方面的一个实施方式，所述接收所述多个第一图像的步骤包括：接收多个图像集，其中每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像，所述对应第三图像具有颜色信息，所述颜色信息增强所述对应第二图像的深度信息；所述利用所述多个第一图像提取所述多个视位特征包括：利用所述多个图像集提取所述多个视位特征，其中，所述多个图像集包括第一图像集，所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。

根据结合本公开内容第二方面的一个实施方式，所述利用所述多个第一图像提取所述多个视位特征的步骤包括：生成对应于所述多个第一图像的多个口相关部嵌入，其中，每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素；以及，追踪所述口相关部的形变，从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境，生成所述多个视位特征。

根据结合本公开内容第二方面的一个实施方式，所述RNN包括双向长短期记忆(LSTM)网络。

根据结合本公开内容第二方面的一个实施方式，所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：确定映射到所述多个视位特征的字符的多个概率分布；以及，一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布确定所述词语序列。

根据结合本公开内容第二方面的一个实施方式，所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。

根据结合本公开内容第二方面的一个实施方式，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。

在本公开内容的第三方面中，提供了一种非易失性计算机可读介质，存储有多个程序指令。所述多个程序指令在由至少一个处理器执行时使所述至少一个处理器执行多个步骤，所述多个步骤包括：

利用所述多个第一图像提取多个视位特征，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头的深度信息获得的；

利用所述多个视位特征确定与所述说出的话语相对应的词语序列，所述词语序列包括至少一个词语；以及

使一个人机界面(HMI)输出模型利用所述词语序列来输出响应。

根据结合本公开内容第三方面的一个实施方式，通过所述至少一个处理器执行的所述多个步骤还包括：使一个相机在所述说话者正在说出所述话语时生成照射所述说话者的舌头的红外光，并且摄取所述多个第一图像。

根据结合本公开内容第三方面的一个实施方式，所述接收所述多个第一图像的步骤包括：接收多个图像集，其中，每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像，所述对应第三图像具有增强所述对应的第二图像的深度信息的颜色信息；利用所述多个第一图像提取所述多个视位特征的步骤包括：利用所述多个图像集提取所述多个视位特征，其中，所述多个图像集包括第一图像集，所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于舌头的深度信息和颜色信息获得的。

根据结合本公开内容第三方面的一个实施方式，所述利用所述多个第一图像来提取所述多个视位特征的步骤包括：

生成对应于所述多个第一图像的多个口相关部嵌入，其中，每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素；以及

追踪所述口相关部的形变，从而利用递归神经网络(RNN)根据所述多个口相关部嵌入所反映的所述话语的语境，生成所述多个视位特征。

附图说明

为了更清楚地说明本公开内容的实施方式或相关技术，对将在实施方式中描述的以下附图进行简要介绍。明显地，这些附图仅仅是本公开内容的一些实施方式，本领域技术人员可以在不付出创造性劳动的前提下根据这些附图获得其他附图。

图1是示出本公开内容的一种实施方式中一个移动电话用作人机界面(HMI)系统以及所述HMI系统的多个硬件模块的示意图。

图2是示出本公开内容的一种实施方式中，包括说出话语的说话者的至少一个口相关部的多个图像的示意图。

图3是示出本公开内容的一种实施方式中，所述HMI系统的HMI控制模块的软件模块和相关联硬件模块的框图。

图4是示出本公开内容的一种实施方式中，在所述HMI系统的语音识别模块中的神经网络模型的框图。

图5是示出本公开内容的另一实施方式中，在所述HMI系统的语音识别模块中的神经网络模型的框图。

图6是示出本公开内容的一种实施方式中一种人机交互方法的流程图。

具体实施方式

参照附图，结合技术问题、结构特征、所实现的目的以及效果来详细地描述本公开内容的实施方式。具体地，本公开内容实施方式中的术语仅用于描述特定实施方式的用途，并非限制本发明。

如本文所使用的术语“利用”指的是一个对象被直接采用以执行操作的情况，或者该对象被至少一个中间操作修改并且经修改的对象被直接采用以执行操作的情况。

图1是本公开内容的一种实施方式的示意图，示出被说话者150用作人机界面(HMI)系统的移动电话100以及所述HMI系统的硬件模块。参阅图1，说话者150使用移动电话100作为HMI系统，该HMI系统允许说话者150通过视觉言语与HMI系统中的HMI输出模块122进行交互。移动电话100包括一个深度相机102、一个RGB相机104、一个存储模块105、一个处理器模块106、一个存储器模块108、至少一个天线110、一个显示模块112以及一个总线114。HMI系统包括一个HMI输入模块118、一个HMI控制模块120以及一个HMI输出模块122，并且能够利用的替代源，例如一个存储模块105或一个网络170。

深度相机102被配置成生成多个图像di₁至di_t(如图2所示)，上述图像包括在说出话语的人的至少一个口相关部。每个图像di₁至di_t具有深度信息。深度相机102可以为下述一个红外(IR)相机：当说话者150正在说出话语时，该红外相机生成照射说话者150的至少一个口相关部的红外光，并摄取多个图像di₁至di_t。IR相机的示例包括一个飞行时间相机和一个结构光相机。深度信息还可以用亮度信息进行增强。可替代地，深度相机102可以是单个RGB相机。单个RGB相机的示例更详细地描述于“Depth map prediction from a singleimage using a multi-scale deep network,”David Eigen,Christian Puhrsch,and RobFergus,arXiv preprint arXiv:1406.2283v1,2014。仍可替代地，深度相机102可以是通过例如两个RGB相机形成的一个立体相机。

RGB相机104被配置成摄取多个图像ri₁至ri_t(如图2所示)，上述图像包括说出话语的说话者150的至少一个口相关部。每个图像ri₁至ri_t具有颜色信息。RGB相机104可以替代地用其他类型的彩色相机例如一个CMYK相机替换。RGB相机104和深度相机102可以为单独的相机，它们被配置成使得多个图像ri₁至ri_t中的对象对应于多个图像di₁至di_t中的对象。每个图像ri₁,…,或ri_t中的颜色信息对对应多个图像di₁,…,或di_t中的深度信息进行增强。RGB相机104和深度相机102可以可替代地被组合成一个RGBD相机。RGB相机104可以为可选的。

深度相机102和RGB相机104用作HMI输入模块118，以用于输入多个图像di₁至di_t以及多个图像ri₁至ri_t。说话者150可以无声地或有声地说出话语。因为深度相机102利用红外光照射说话者150，所以HMI输入模块118可以将说话者150定位在弱光条件的环境中。多个图像di₁至di_t以及多个图像ri₁至ri_t可以被实时利用，例如用于言语口述，或者可以被记录并随后利用，例如用于转录视频。当多个图像di₁至di_t和多个图像ri₁至ri_t被记录用于随后利用时，HMI控制模块120可以不从HMI输入模块118直接接收多个图像di₁至di_t和多个图像ri₁至ri_t，而可以从可替代的源诸如存储模块105或一个网络170接收多个图像di₁至di_t和多个图像ri₁至ri_t。

存储器模块108可以为包括至少一个存储器的非易失性计算机可读介质，该存储器存储能够由处理器模块106执行的程序指令。处理器模块106包括至少一个处理器，该处理器经由总线114直接地或间接地向深度相机102、RGB相机104、存储模块105、存储器模块108、至少一个天线110、显示模块112发送信号，和/或直接地或间接地从它们接收信号。该至少一个处理器被配置成执行多个程序指令，这将该至少一个处理器配置为HMI控制模块120。HMI控制模块120控制HMI输入模块118生成多个图像di₁至di_t和多个图像ri₁至ri_t，对多个图像di₁至di_t和多个图像ri₁至ri_t进行语音识别，以及控制HMI输出模块122基于语音识别的结果来生成响应。

至少一个天线110被配置成生成至少一个无线电信号，该无线电信号携载直接或间接地从语音识别的结果中得出的信息。至少一个天线110用作HMI输出模块122中之一。当响应是例如至少一个蜂窝无线电信号时，该至少一个蜂窝无线电信号可以携载例如从一个口述指令直接得出的用以发送例如一个(短消息服务)SMS消息的内容信息。当响应是例如至少一个Wi-Fi无线电信号时，该至少一个Wi-Fi无线电信号可以携载例如直接从一个口述指令得出的用以利用关键字进行网络搜索的关键字信息。显示模块112被配置成生成携载直接或间接地从语音识别的结果得出的信息的光。显示模块112用作HMI输出模块122中之一。当响应是例如正在显示的视频的光时，正在显示的视频的光可以携载例如从一个口述指令间接地得出的用以播放或暂停视频的期望观看的内容。当响应是例如显示的图像的光时，上述显示的图像的光可以携载例如直接从语音识别的结果得出的用于输入到移动电话100的文本。

图1中的HMI系统为移动电话100。其他类型的HMI系统，例如未将HMI输入模块、HMI控制模块以及HMI输出模块集成于同一装置中的视频游戏系统，也在本公开内容的涵盖范围内。

图2是本公开内容的一种实施方式的示意图，示出包括说出话语的说话者150(如图1所示)的至少一个口相关部的多个图像di₁至di_t以及多个图像ri₁至ri_t的图。多个图像di₁至di_t由深度相机102(如图1所示)拍摄。每个图像di₁至di_t都具有深度信息。该深度信息反映了说话者150的至少一个口相关部的被测量单元如何相对于说话者150进行前后定位的。说话者150的口相关部包括舌头204。说话者150的口相关部还可以包括嘴唇202、牙齿206、以及面部肌肉208。多个图像di₁至di_t包括在说出话语的说话者150的面部。多个图像ri₁至ri_t由RGB相机104拍摄。每个图像ri₁至ri_t都具有颜色信息。该颜色信息反映了说话者150的至少一个口相关部的被测量单元的颜色如何不同。为了简单起见，在说出话语的说话者150的仅面部被显示在多个图像di₁至di_t中，而其他对象例如说话者150的其他的身体部分以及其他人都被隐藏。

图3是本公开内容的一种实施方式的框图，示出HMI系统的HMI控制模块120(如图1所示)的软件模块以及相关联硬件模块的框图。HMI控制模块120包括一个相机控制模块302、一个语音识别模块304、一个天线控制模块312以及一个显示控制模块314。一个语音识别模块304包括一个面部检测模块306、一个面部对准模块308以及一个神经网络模型310。

相机控制模块302被配置成使深度相机102在说话者150正在说出话语时生成照射说话者150(如图1所示)的至少一个口相关部的红外光，并且拍摄多个图像di₁至di_t(如图2所示)，以及使RGB相机104拍摄多个图像ri₁至ri_t(如图2所述)。

语音识别模块304被配置成对多个图像ri₁至ri_t和多个图像di₁至di_t执行语音识别。面部检测模块306被配置成在多个图像di₁至di_t和多个图像ri₁至ri_t中的每个图像的场景中检测说话者150的面部。面部对准模块308被配置成使检测的面部相对于参考基准对准，以生成具有RGBD通道的多个图像x₁至x_t(如图4所示)。通过例如在面部检测和面部对准中的一者或两者期间执行裁剪和缩放，多个图像x₁至x_t可以包括在说出话语的说话者150的仅面部并且具有一致的尺寸，或者可以包括在说出话语的说话者150的面部的仅一部分区域并且具有一致的尺寸。针对每个所检测的面部，面部对准模块308可以不识别一组面部标志。神经网络模型310被配置成接收一个时序输入序列，该序列是图像di₁至di_t，并且利用深度学习来输出一个词语序列。

天线控制模块312被配置成使至少一个天线110基于作为语音识别的结果的词语序列来生成响应。显示控制模块314被配置成使显示模块112基于作为语音识别的结果的词语序列来生成响应。

图4是本公开内容的一种实施方式的框图，示出HMI系统中的语音识别模块304(如图3所示)中的神经网络模型310。参阅图4，神经网络模型310包括多个卷积神经网络(CNNs)CNN₁至CNN_t、由多个前向长短期记忆(LSTM)单元FLSTM₁至FLSTM_t以及多个反向LSTM单元BLSTM₁至BLSTM_t形成的递归神经网络(RNN)、多个聚合单元AGG₁至AGG_t、多个全连接网络FC₁至FC_t以及一个连接时序分类(CTC)损失层402。

各CNNs即CNN₁至CNN_t中的每一个被配置成从图像x₁至x_t中的对应的多个图像x₁,…,或x_t来提取特征以及将对应的多个图像x₁,…,或x_t映射到对应的口相关部嵌入e₁,…,或e_t，该口相关部嵌入是在口相关部嵌入空间的向量。对应的口相关部嵌入e₁,…,或e_t包括下述元素：上述元素中的每个元素是关于图2所描绘的口相关部的特性的量化信息。口相关部的特性可以是该口相关部的一维(1D)特性、二维(2D)特性、或者三维(3D)特性。对应的多个图像x₁,…,或x_t的深度信息可以用于计算口相关部的1D特性、2D特性、或者3D特性的量化信息。对应的多个图像x₁,…,或x_t的颜色信息可以用于计算口相关部的1D特性或者2D特性的量化信息。对应的多个图像x₁,…,或x_t的深度信息和颜色信息两者可以用于计算口相关部的1D特性、2D特性、或者3D特性的量化信息。口相关部的特性可以例如为嘴唇202的形状或位置、舌头204的形状或位置、牙齿206的形状或位置、以及面部肌肉208的形状或位置。例如舌头204的位置可以为舌头204的相对于例如牙齿206的相对位置。舌头204相对于牙齿206的相对位置可以用于区分话语中的“leg”与“egg”。深度信息可以更好地追踪口相关部的形变，而颜色信息可以对口相关部的形状进行更好地边缘感知。

各CNNs即CNN₁至CNN_t中的每一个包括多个交错的卷积层(例如，空间或时空卷积)、多个非线性激活函数(例如，ReLU、PReLU)、最大池化层以及多个可选的全连接层。各CNNs即CNN₁至CNN_t中的每一个的层的示例都更详细地描述于“FaceNet:A unified embedding forface recognition and clustering,”Florian Schroff,Dmitry Kalenichenko,andJames Philbin,arXiv preprint arXiv:1503.03832,2015.

RNN被配置成追踪口相关部的形变使得考虑以多个口相关部嵌入e₁至e_t所反映的话语的语境，以生成多个第一视位特征fvf₁至fvf_t以及多个第二视位特征svf₁至svf_t。视位特征是描述与视位相对应的口相关部的形变的高级特征。

RNN是包括LSTM单元FLSTM₁至FLSTM_t以及LSTM单元BLSTM₁至BLSTM_t的双向LSTM。前向LSTM单元FLSTM₁被配置成接收口相关部嵌入e₁，以及生成前向隐藏状态fh₁和第一视位特征fvf₁。每个前向LSTM单元FLSTM₂,…,或FLSTM_t-1被配置成接收对应的口相关部嵌入e₂,…,或e_t-1和前向隐藏状态fh₁,…,或fh_t-2，以及生成前向隐藏状态fh₂,…,或fh_t-1和第一视位特征fvf₂,…,或fvf_t-1。前向LSTM单元FLSTM_t被配置成接收口相关部嵌入e_t和前向隐藏状态fh_t-1，以及生成第一视位特征fvf_t。反向LSTM单元BLSTM₁被配置成接收口相关部嵌入e_t，以及生成反向隐藏状态bh_t和第二视位特征svf_t。每个反向LSTM单元BLSTM_t-1,…,或BLSTM₂被配置成接收对应的口相关部嵌入e_t-1,…,或e₂和反向隐藏状态bh_t,…,或bh₃，以及生成反向隐状态bh_t-1,…,或bh₂和第二视位特征svf _t-1,…,或svf₂。反向LSTM单元BLSTM₁被配置成接收口相关部嵌入e₁和反向隐藏状态bh₂，以及生成第二视位特征svf₁。

前向LSTN单元FLSTM₁至FLSTM_t中的每一个以及反向LSTM单元BLSTM₁至BLSTM_t中的每一个的示例都更详细地描述于“Speech recognition with deep recurrent neuralnetworks,”Graves A,Mohamed AR,Hinton G,In IEEE International Conference onAcoustics,Speech and Signal Processing,pp.6645-6649,2016.

图4中的RNN是包括仅一个双向LSTM层的双向LSTM。其他类型的RNN，例如包括双向LSTM层的堆叠的双向LSTM、单向LSTM、双向门控递归单元(gated recurrent unit，GRU)、单向门控递归单元，仍在本公开内容的涵盖范围内。

聚合单元AGG₁至AGG_t中的每一个被配置成聚合对应的第一视位特征fvf₁,…,或fvf_t以及对应的第二视位特征svf₁,…,或svf_t，以生成对应的聚合输出v₁,…,或v_t。聚合单元AGG₁至AGG_t中的每一个可以通过串接将对应的第一视位特征fvf₁,…,或fvf_t和对应的第二视位特征svf₁,…,或svf_t进行聚合。

全连接网络FC₁至FC_t中的每一个被配置成将对应的聚合输出v₁,…,或v_t映射到字符空间，以及确定被映射到第一视位特征fvf₁,…,或fvf_t和/或第二视位特征svf₁,…,或svf_t的字符的概率分布y₁,…,或y_t。全连接网络FC₁至FC_t中的每一个可以为多层感知机(MLP)。可以利用Softmax函数来确定输出字符的概率分布。

CTC损失层402被配置成执行下述。接收被映射到多个第一视位特征fvf₁至fvf_t和/或多个第二视位特征svf₁至svf_t的字符的多个概率分布y₁至y_t。输出字符可以是字母或者空白标记。获得字符串的概率分布。每个字符串都是通过边缘化被定义为与该字符串等同的所有字符序列来获得的。词语序列是利用字符串的概率分布来获得的。词语序列至少包括一个词语。词语序列可以是一个词组或者一个语句。可以采用语言模型来获得词语序列。CTC损失层402的示例更详细地描述于“Connectionist temporal classification:labelling unsegmented sequence data with recurrent neural networks,”Graves,S.Fernandez,F.Gomez,and J.Schmidhuber,In ICML,pp.369–376,2006.

神经网络模型310通过最小化CTC损失进行端到端的训练。在训练之后，神经网络模型310的参数被冻结，并且神经网络模型310被部署至移动电话100(如图1所示)。

图5是本公开内容的另一实施方式的框图。示出HMI系统中的语音识别模块304(如图3所示)的神经网络模型310b。参阅图5，神经网络模型310b包括观看一个图像编码器502、一个收听音频编码器504以及一个拼写字符解码器506。观看图像编码器502被配置成从多个图像x₁至x_t(图4中示例性示出)中提取多个视位特征。每个视位特征是利用多个图像x₁,…,或x_t中的口相关部(参照图2描述)的深度信息获得的。收听音频编码器504被配置成利用包括话语的声音的音频来提取多个音频特征。拼写字符解码器506被配置成利用视位特征和音频特征来确定与说出的话语相对应的词语序列。观看图像编码器502、收听音频编码器504和拼写字符解码器506是通过最小化条件损失进行训练的。用于语音识别的基于编码器-解码器的神经网络模型的示例更详细地描述于“Lip reading sentences in thewild,”Joon Son Chung,Andrew Senior,Oriol Vinyals,and Andrew Zisserman,arXivpreprint arXiv:1611.05358v2,2017。

图6是本公开内容的一种实施方式的流程图，示出用于人机交互的方法的流程。参阅图1至图5，用于人机交互的方法包括由HMI输入模块118执行的方法610、由HMI控制模块120执行的方法630、以及由HMI输出模块122执行的方法650。

在步骤632中，通过相机控制模块302使相机在说话者正在说出话语时生成照射说话者的舌头的红外光，并且摄取包括在说出话语的说话者的至少一个口相关部的多个第一图像。该相机为深度相机102。

在步骤612中，当说话者正在说出话语时，通过相机生成照射说话者的舌头的红外光。

在步骤614中，通过相机摄取多个第一图像。

在步骤634中，通过语音识别模块304从相机接收多个第一图像。

在步骤636中，利用多个第一图像来提取多个视位特征。步骤636可以包括：通过面部检测模块306、面部对准模块308和各CNNs即CNN₁至CNN_t来生成对应于第一图像的多个口相关部嵌入；以及追踪口相关部的形变，使得利用RNN来考虑以口相关部嵌入所反映的话语的语境，以通过RNN和聚合单元AGG₁至AGG_t生成视位特征。RNN由前向LSTM单元FLSTM₁至FLSTM_t以及反向LSTM单元BLSTM₁至BLSTM_t形成。可替代地，步骤636可以包括通过面部检测模块306和面部对准模块308、利用多个第一图像来生成多个第二图像；以及通过观看图像编码器502从第二图像中提取视位特征。

在步骤638中，利用多个视位特征来确定对应于说出的话语的词语序列。步骤638可以包括：通过全连接网络FC₁至FC_t来确定映射到多个视位特征的字符的多个概率分布；以及通过CTC损失层402、利用映射到多个视位特征的字符的概率分布来确定词语序列。可替代地，步骤638可以通过拼写字符解码器506来执行。

在步骤640中，使HMI输出模块利用词语序列来输出响应。当HMI输出模块为至少一个天线110时，使该至少一个天线110通过天线控制模块312生成响应。当HMI输出模块为显示模块112时，使该显示模块112通过显示控制模块314生成响应。

在步骤652中，通过HMI输出模块、利用词语序列来输出响应。

可替代地，在步骤632中，通过相机控制模块302使至少一个相机在说话者正在说出话语时生成照射说话者的舌头的红外光，并且摄取包括在说出话语的人的至少一个口相关部的多个第一图像。至少一个相机包括深度相机102以及RGB相机104。每个图像集is₁,…,或is_t包括图2中的图像di₁，…，或di_t和图像ri₁，…，或ri_t。在步骤612中，当说话者正在说出话语时，通过深度相机102生成照射人的口相关部的红外光。在步骤614中，通过深度相机102以及RGB相机104来摄取多个图像集。在步骤634中，通过语音识别模块304从至少一个相机接收多个图像集。在步骤636中，通过面部检测模块306、面部对准模块308、各CNNs即CNN₁至CNN_t、RNN以及聚合单元AGG₁至AGG_t，利用多个图像集来提取多个视位特征。RNN由前向LSTM单元FLSTM₁至FLSTM_t以及反向LSTM单元BLSTM₁至BLSTM_t形成。可替代地，在步骤636中，通过面部检测模块306、面部对准模块308以及观看图像编码器502，利用图像集来提取多个视位特征。

一些实施方式具有以下特征和/或优点中的一种或其组合。在一种实施方式中，语音识别是通过下述来执行的：接收包括在说出话语的人的至少一个口相关部的多个图像，其中，每个图像都具有深度信息；以及利用第一图像来提取多个视位特征，其中，视位特征中的一个视位特征是利用所述第一图像中的一个第一图像的深度信息中人的舌头的深度信息来获得的。利用深度信息，可以追踪口相关部的形变，使得口相关部的3D形状和细微运动被考虑在内。因此，可以区分某些模糊的词语(如“leg”对“egg”)。在一种实施方式中，深度相机在人正在说出话语时利用红外光照射人的口相关部，并摄取图像。因此，允许人在弱光条件的环境种说出话语。

本领域的普通技术人员当理解，在本公开内容的实施方式中描述和公开的每个单元、模块、算法和步骤是利用电子硬件来实施的或用于计算机的软件与电子硬件的组合来实施的。这些功能是以硬件还是软件方式运行取决于技术方案的应用条件和设计要求。本领域普通技术人员可以使用不同的方式来实现每个特定应用的功能，而这种实现不应超出本公开内容的范围。

本领域的普通技术人员当理解，由于上述系统、设备和模块的工作过程基本相同，因此可以参考上述实施方式中的系统、设备和模块的工作过程。为了便于描述和简单，这些工作过程将不详述。

应当理解，本公开内容实施方式中所公开的系统、设备和方法可以通过其他方式实现。上述实施方式仅是示例性的。模块的划分仅基于逻辑功能，其他的划分在实现中是存在的。多个模块或组件可以组合或集成在另一系统中。一些特征也可以被省略或跳过。另一方面，所展示或讨论的相互耦合、直接耦合或通信耦合通过一些端口、设备或模块借助于电气形式、机械形式或其他形式运作，无论是间接地还是通信地。

为了说明而作为分离组件的模块在物理上是分离的或不是分离的。用于显示的模块可以是或不是物理模块，即，位于一个地方或分布在多个网络模块上。根据实施方式的目的使用部分或所有的模块。

此外，每个实施方式中的每个功能模块都可以集成在一个处理模块中，在物理上相独立，或在一个处理模块中集成有两个或两个以上的模块。

如果软件功能模块被实现并作为产品使用和销售，它可以存储在计算机的可读存储介质中。基于这种理解，本公开内容所提出的技术方案可以本质上或部分地以软件产品的形式实现。或者，技术方案中对传统技术有利的一部分可以以软件产品的形式实现。计算机中的软件产品存储在存储介质中，包括用于计算设备(如个人计算机、服务器或网络设备)的多个命令，以运行本公开内容的实施方式公开的全部或部分的步骤。存储介质包括USB磁盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、软盘或其他能够存储程序代码的介质。

虽然已经结合被认为是最实用和优选的实施方式描述了本公开内容，但是要理解的是，本公开内容不仅限于所公开的实施方式，而意在涵盖在不脱离所附权利要求的最广解读范围的情况下所作出的各种布置。

Claims

1.一种方法，包括：

一个人机界面(HMI)输出模型利用所述词语序列来输出响应。

2.根据权利要求1所述的方法，还包括：

所述相机摄取所述多个第一图像。

3.根据权利要求1所述的方法，其中，

所述至少一个处理器接收所述多个第一图像的步骤包括：

所述至少一个处理器接收多个图像集，其中，每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像，所述对应第三图像具有增强所述对应第二图像的深度信息的颜色信息；以及

所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括：

所述至少一个处理器利用所述多个图像集提取所述多个视位特征，其中，所述多个图像集包括第一图像集，所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。

4.根据权利要求1所述的方法，其中，所述至少一个处理器利用所述多个第一图像提取所述多个视位特征的步骤包括：

所述至少一个处理器生成对应于所述多个第一图像的多个口相关部嵌入，其中，每个口相关部嵌入包括利用所述舌头的深度信息生成的第一元素；以及

5.根据权利要求4所述的方法，其中，所述RNN包括双向长短期记忆(LSTM)网络。

6.根据权利要求1所述的方法，其中，所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：

7.根据权利要求1所述的方法，其中，所述至少一个处理器利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：

8.根据权利要求1所述的方法，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。

9.一种系统，包括：

至少一个存储器，配置成存储多个程序指令；

至少一个处理器，配置成执行所述多个程序指令，所述多个程序指令使所述至少一个处理器执行多个步骤，所述多个步骤包括：

一个人机界面(HMI)输出模型，配置成利用所述词语序列来输出响应。

10.根据权利要求9所述的系统，还包括：

一个相机，配置成：

当所述说话者正在说出所述话语时，生成照射所述说话者的舌头的红外光；以及

摄取所述多个第一图像。

11.根据权利要求9所述的系统，其中，

所述接收所述多个第一图像包括：

接收多个图像集，其中每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像，所述对应第三图像具有颜色信息，所述颜色信息增强所述对应第二图像的深度信息；以及

所述利用所述多个第一图像提取所述多个视位特征包括：

利用所述多个图像集提取所述多个视位特征，其中，所述多个图像集包括第一图像集，所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于所述舌头的深度信息和颜色信息获得的。

12.根据权利要求9所述的系统，其中，所述利用所述多个第一图像提取所述多个视位特征的步骤包括：

13.根据权利要求12所述的系统，其中，所述RNN包括双向长短期记忆(LSTM)网络。

14.根据权利要求9所述的系统，其中，所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：

确定映射到所述多个视位特征的字符的多个概率分布；以及

一个连接时序分类(CTC)损失层利用映射到所述多个视位特征的字符的所述多个概率分布确定所述词语序列。

15.根据权利要求9所述的系统，其中，所述利用所述多个视位特征确定与所述说出的话语相对应的词语序列的步骤包括：

一个解码器利用所述多个视位特征确定与所述说出的话语相对应的所述词语序列。

16.根据权利要求9所述的系统，其中，所述多个视位特征中的一个视位特征是利用所述多个第一图像中的一个第一图像的深度信息中所述说话者的舌头、嘴唇、牙齿和面部肌肉的深度信息获得的。

17.一种非易失性计算机可读介质，存储有多个程序指令，所述多个程序指令由至少一个处理器执行时使所述至少一个处理器执行多个步骤，所述多个步骤包括：

接收多个第一图像，所述多个第一图像包括说出话语的说话人的至少一个口相关部，每个第一图像具有深度信息；

18.根据权利要求17所述的非易失性计算机可读介质，其中，所述步骤还包括：

使一个相机在所述说话者正在说出所述话语时生成照射所述说话者的舌头的红外光，并且摄取所述多个第一图像。

19.根据权利要求17所述的非易失性计算机可读介质，其中，

所述接收所述多个第一图像的步骤包括：

接收多个图像集，其中，每个图像集包括所述多个第一图像的一个对应第二图像和一个对应第三图像，所述对应第三图像具有增强所述对应的第二图像的深度信息的颜色信息；以及

所述利用所述多个第一图像提取所述多个视位特征的步骤包括：

利用所述多个图像集提取所述多个视位特征，其中，所述多个图像集包括第一图像集，所述多个视位特征中的所述一个视位特征是利用所述第一图像集的深度信息和颜色信息中对应于舌头的深度信息和颜色信息获得的。

20.根据权利要求17所述的非易失性计算机可读介质，其中，所述利用所述多个第一图像提取所述多个视位特征的步骤包括：