CN104881647B

CN104881647B - 信息处理方法、信息处理系统和信息处理装置

Info

Publication number: CN104881647B
Application number: CN201510278162.6A
Authority: CN
Inventors: 张弛
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2015-05-27
Filing date: 2015-05-27
Publication date: 2019-03-01
Anticipated expiration: 2035-05-27
Also published as: CN104881647A

Abstract

本公开提供了一种信息处理方法、系统和装置，所述信息处理方法包括：采集包括被摄者的唇部动作的视频；识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示所述识别信息。

Description

信息处理方法、信息处理系统和信息处理装置

技术领域

本公开涉及信息处理的领域，更具体地，本公开涉及一种信息处理方法、信息处理系统和信息处理装置。

背景技术

严重听力障碍人士在社会生活中存在诸多不便。现有的基于放大声音的助听器只能帮助听力障碍不严重的情况，而且在嘈杂背景音的情况下，也不能有效的工作。另一方面，严重听力障碍人士可以通过手语与他人交流。但是对大部分人来说都不熟悉手语，因此通过这种方式只能和有限的专业人士交流。当然，严重听力障碍人士可以通过书写文字来与他人交流，然而这不仅需要额外的设备，如笔，纸张，而且交流的速度也存在较大限制。

发明内容

根据本公开一实施例，提供了一种信息处理方法，包括：采集包括被摄者的唇部动作的视频；识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示所述识别信息。

根据本公开另一实施例，提供了一种信息处理系统，包括：视频采集单元，采集包括被摄者的唇部动作的视频；处理单元，识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示单元，显示所述识别信息。

根据本公开另一实施例，提供了一种信息处理装置，包括：视频采集单元，采集包括被摄者的唇部动作的视频；发送单元，将所述视频发送至与所述信息处理装置可通信地连接的计算机；接收单元，从所述计算机接收与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及显示单元，显示所述识别信息。

根据本公开另一实施例，提供了一种信息处理系统，包括：图像采集模块，采集包括被摄者的唇部动作的视频；处理器；存储器；显示器；和存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时执行以下步骤：识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；所述显示器显示所述识别信息。

根据本公开另一实施例，提供了一种计算机程序产品，包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令，所述计算机程序指令在被计算机运行时执行以下步骤：采集包括被摄者的唇部动作的视频，识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息以用于显示。

在本公开实施例的信息处理方法、信息处理系统和信息处理装置中，能够不受背景噪音影响地、快捷准确地识别说话者所表达的含义，并将所述含义直观地显示，从而有利于背景噪音巨大的情况下的人际交流，也使得严重听力障碍人士能够流畅地与他人进行交流。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，在附图中，相同的参考标号通常指示相同的部件。

图1是示意性图示可用于实现根据本公开实施例的信息处理方法的系统的框图；

图2是示意性图示根据本公开实施例的信息处理方法的主要步骤的流程图；

图3是示意性图示根据本公开实施例的信息处理系统的主要配置的框图；以及

图4是示意性图示根据本公开实施例的信息处理装置的主要配置的框图。

具体实施方式

以下将参考附图详细描述本公开实施例。

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。基于本公开中描述的本公开实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。

首先，参照图1来描述根据本公开实施例的信息处理系统的主要配置的框图。

如图1所示，本公开实施例的信息处理系统100主要包括：一个或多个处理器102、一个或多个存储器104、图像采集模块106以及显示器108。这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。

具体地，所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以与所述系统100中的其它组件配合以执行期望的功能。

存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本公开的实施例的信息处理方法的相应功能以及/或者其它期望的功能。

所述图像采集模块106例如为基于可见光的彩色或灰度摄像机，诸如眼镜附属摄像头，网络摄像头、手机的前置摄像头等，用于采集包括被摄者的唇部动作的视频。

所述显示器108例如为LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light Emitting Diode，有机发光二极管)等的任何种类的显示器，用于显示稍后所述的识别信息。

应当注意，图1所示的系统100的组件和结构只是示例性的，而非限制性的，根据需要，系统100也可以具有其他组件和结构。

例如，所述系统还可包括未示出的输入装置。输入装置可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述指令例如是使用所述图像采集模块106拍摄图像的指令等。

下面，将参照图2描述根据本公开实施例的信息处理方法。

图2是示意性图示根据本公开实施例的信息处理方法的主要步骤的流程图。如图2所示，首先，在步骤S210，所述信息处理方法采集包括被摄者的唇部动作的视频。具体地，所述信息处理方法可通过如上所述的图像采集模块来采集所述视频。

接下来，在步骤S220，所述信息处理方法识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息。

具体地，在一实施例中，当所述视频除了所述被摄者的唇部之外还包括其他视频元素时，所述信息处理方法可以首先确定所述视频中唇部的位置。更具体地，所述信息处理方法可以对所述视频逐帧进行分析，以定位每帧视频中唇部的位置，其具体处理为本领域技术人员所知，在此不再详述。

由此，所述信息处理方法对组成所述视频的帧序列中的唇部图像序列进行识别。在一示例中，所述信息处理方法可以首先对于所述视频的每一帧图像，提取所述图像中表示唇部的结构信息的关键点集。具体地，所述信息处理方法可以采用诸如基于级联回归的方法、基于神经网络的方法、基于支持向量机的方法等的方法中的任一个来提取所述关键点集。

更具体地，以基于级联回归的方法为例，所述信息处理方法可以从互联网上收集大量图片，人工标记出唇部关键点。可选地，所述信息处理方法还可以进一步计算每个唇部关键点与平均关键点(即，将所有关键点的向量进行算术平均后所得到的向量所对应的关键点)的距离。接下来，所述信息处理方法在每个关键点上提取特征向量，所述特征向量例如为多维(例如128维)SIFT(Scale-invariant feature transform，尺度不变特征转换)特征。此后，所述信息处理方法根据如上所获得的特征向量和距离，采用诸如最小二乘法等的算法得到一个线性模型。在得到所述线性模型之后，所述信息处理方法即可将所述视频的每一帧图像输入所述线性模型，以提取所述关键点集。

需要指出的是，以上所述的提取方法仅为示例。本领域技术人员可以采用本领域已知的或将来开发的任何适当的处理方法来提取所述关键点集。

在提取了所述关键点集之后，所述信息处理方法跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征。所述关键特征可以为多维矢量(例如，3维或4维)的形式。此后，所述信息处理方法基于所述关键特征识别所述视频，以生成所述识别信息。

具体地，在一示例中，所述信息处理方法可以基于所述关键特征，使用预先训练的各种神经网络来生成所述识别信息。所述神经网络包括但不限于回馈式深度人工神经网络。

更具体地，所述信息处理方法可以通过以下步骤对所述神经网络预先进行训练。首先，所述信息处理方法获取训练视频集以及相关联的训练目标集。所述训练视频集中的每个训练视频包含唇部动作。所述训练目标集中的每个训练目标表示相关联的训练视频中的唇部动作所表达的含义。例如，所述信息处理方法可以通过网络获取大量人物说话的视频，作为所述训练视频集。另一方面，所述信息处理方法可以获取与所述视频集中的各个视频相关联的字幕或人工标记所述视频的说话内容，作为与所述视频相关联的训练目标。

接下来，所述信息处理方法可以对于每个训练视频的每一帧图像，提取表示唇部的结构信息的训练关键点集，并跟踪所述训练关键点集中的每一训练关键点在所述训练视频的各帧图像之间的位置的变化，以得到表示唇部动作的训练关键特征。所述信息处理方法提取训练关键点集的处理和得到训练关键特征的处理分别与如上所述的提取关键点集的处理和得到关键特征的处理类似，在此不再重复。

在得到训练关键特征之后，所述信息处理方法将每个训练视频的所述训练关键特征作为待训练的神经网络的输入，将与每个训练视频相关联的训练目标作为所述神经网络的输出，训练所述神经网络。

更具体地，所述神经网络例如可以包括输入层、卷积层、反馈层、全连接层和输出层。由此，所述信息处理方法将作为特征向量序列的所述关键特征输入所述输入层。然后，通过所述卷积层，从所述特征向量序列提取卷积层特征。可选地，还可在提取卷积层特征之前对所述特征向量序列进行诸如平滑处理等的预处理。接下来，通过所述反馈层，结合所述视频的前一帧反馈层特征和后一帧反馈层特征，从所述卷积层特征提取当前帧的反馈层特征。所述反馈层可以通过包括但不限于LSTM(Long Short Term Memory，长短期记忆)等的方式来实现。此后，通过所述全连接层，对所述当前帧的反馈层特征进行抽象处理，以生成所述识别信息。最后，通过所述输出层输出所述识别信息。所述输出层可以通过包括但不限于CTC(Connectionist Temporal Classification，连接时间分类)等的方式来实现。

需要指出的是，以上以神经网络为例描述了基于所述关键特征而生成所述识别信息的处理。然而，本公开不限于此。本领域技术人员可以通过本领域已知或未来开发的各种适当方式来从所述关键特征而生成所述识别信息。

此外，需要指出的是，以上以基于关键点的方法为例描述了识别视频的处理。然而，本公开不限于此。本领域技术人员可以通过本领域已知或未来开发的各种适当方式来识别所述视频。

此外，需要指出的是，通过以上所述的步骤获得的识别信息可以作为初步信息而经历进一步的处理。示例性地，为使所述识别信息更加合理，可以首先通过如上所述的处理识别所述视频，以生成文本形式的初步信息。然后，基于预定语言模型对所述初步信息进行修改，以生成所述识别信息。所述语言模型包括但不限于N-gram模型等。由此，所述信息处理方法能够基于语言习惯对所述识别信息中的不合理的部分进行修正，以提高识别精度。

在通过如上所述的处理获得了所述识别信息之后，所述信息处理方法进行到步骤S230，并显示所述识别信息。例如，在应用所述信息处理方法的设备为智能眼镜或头盔的情况下，所述识别信息可以显示在作为显示单元的镜片上。在应用所述信息处理方法的设备为手机或平板电脑的情况下，所述识别信息可以显示在所述手机或平板电脑的显示屏上。

以上参照图2详细描述了本公开实施例的信息处理方法。在本公开实施例的信息处理方法中，通过采集说话者的唇部视频，对其进行识别并以例如文本形式将说话内容的识别结果显示出来，能够不受背景噪音影响地、快捷准确地识别说话者所表达的含义，并将所述含义直观地显示，从而有利于背景噪音巨大的情况下的人际交流，也使得严重听力障碍人士能够流畅地与他人进行交流。

下面，将参照图3描述本公开实施例的信息处理系统。

图3是示意性图示根据本公开实施例的信息处理系统的主要配置的框图。如图3所示，根据本公开实施例的信息处理系统300主要包括：视频采集单元310、处理单元320和显示单元330。

所述视频采集单元310采集包括被摄者的唇部动作的视频。所述处理单元320识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息。所述显示单元330显示所述识别信息。

在一实施例中，所述识别信息为文本形式的信息，并且，所述处理单元320包括：识别单元，识别所述视频，以生成文本形式的初步信息；以及生成单元，基于预定语言模型对所述初步信息进行修改，以生成所述识别信息。

在另一实施例中，所述处理单元320包括：提取单元，对于所述视频的每一帧图像，提取所述图像中表示唇部的结构信息的关键点集；跟踪单元，跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征；以及生成单元，基于所述关键特征识别所述视频，以生成所述识别信息。

在另一实施例中，所述生成单元配置为：基于所述关键特征，使用预先训练的神经网络来生成所述识别信息。

在另一实施例中，所述提取单元配置为：通过基于级联回归的方法、基于神经网络的方法、基于支持向量机的方法中的至少一个，提取所述关键点集。

在另一实施例中，所述信息处理系统300还包括：获取单元，获取训练视频集以及相关联的训练目标集，所述训练视频集中的每个训练视频包含唇部动作，所述训练目标集中的每个训练目标表示相关联的训练视频中的唇部动作所表达的含义；训练关键点提取单元，对于每个训练视频的每一帧图像，提取表示唇部的结构信息的训练关键点集；训练关键点跟踪单元，跟踪所述训练关键点集中的每一训练关键点在所述训练视频的各帧图像之间的位置的变化，以得到表示唇部动作的训练关键特征；以及训练单元，将每个训练视频的所述训练关键特征作为待训练的神经网络的输入，将与每个训练视频相关联的训练目标作为所述神经网络的输出，训练所述神经网络。

在另一实施例中，所述神经网络包括输入层、卷积层、反馈层、全连接层和输出层，并且，所述生成单元配置为：将作为特征向量序列的所述关键特征输入所述输入层；通过所述卷积层，从所述特征向量序列提取卷积层特征；通过所述反馈层，结合所述视频的前一帧反馈层特征和后一帧反馈层特征，从所述卷积层特征提取当前帧的反馈层特征；通过所述全连接层，对所述当前帧的反馈层特征进行抽象处理，以生成所述识别信息；以及通过所述输出层输出所述识别信息。

所述信息处理系统300的各个单元的具体配置和操作已经在上面参照图2所述的信息处理方法中详细描述，在此不再重复。

通过本公开实施例的信息处理系统，能够不受背景噪音影响地、快捷准确地识别说话者所表达的含义，并将所述含义直观地显示，从而有利于背景噪音巨大的情况下的人际交流，也使得严重听力障碍人士能够流畅地与他人进行交流。

需要指出的是，本公开实施例的信息处理方法和信息处理系统既可以以集中方式部署在诸如智能眼镜(头盔)、手机、平板电脑、个人计算机等的终端处，也可以以分布式方式部署在服务器端(云端)和所述终端处。在以集中式方式部署在终端处的情况下，本公开实施例的信息处理方法和信息处理系统可以以所谓的离线方式(即，不需要云端的参与)操作。在以分布式方式部署在服务器端和终端处的情况下，本公开实施例的信息处理方法和信息处理系统可以以所谓的在线方式(即，需要云端的参与)操作。

下面，将参照图4描述根据本公开实施例的信息处理装置。

图4是示意性图示根据本公开实施例的信息处理装置的主要配置的框图。如图4所示，本公开实施例的信息处理装置400主要包括：视频采集单元410、发送单元420、接收单元430和显示单元440。

所述视频采集单元410采集包括被摄者的唇部动作的视频。所述发送单元420将所述视频发送至与所述信息处理装置可通信地连接的计算机。所述接收单元430从所述计算机接收与所述被摄者通过所述唇部动作所表达的含义对应的识别信息。所述显示单元440显示所述识别信息。

所述视频采集单元410和所述显示单元440的具体配置和操作已经在前面参照图1详细描述，在此不再重复。所述发送模块420和所述接收模块430可实现为以各种通信协议与所述计算机进行通信的通信模块。所述通信可以是有线通信，也可以是无线通信。

具体地，在一实施例中，所述计算机识别所述视频，以生成所述识别信息。示例性地，所述计算机包括：接收模块，从所述信息处理装置接收所述视频；处理器；存储器；存储在所述存储器中的计算机程序指令，在所述计算机程序指令被所述处理器运行时执行以下步骤：识别所述视频，以生成所述识别信息；以及发送模块，将所述识别信息发送至所述信息处理装置。所述计算机识别所述视频的具体处理已经在上面参照图2的信息处理方法中详细描述，在此不再重复。

需要指出的是，虽然上面以所述计算机将识别信息发送至所述信息处理装置所包括的显示单元进行显示的情况为例进行了描述，但是，本领域技术人员能够理解，取决于所述本公开实施例的应用场景，所述信息处理装置也可不包含显示单元，所述计算机将所述识别信息发送至其他装置处的显示单元用于显示。或者，所述计算机可以将所述识别信息发送至所述信息处理装置所包括的显示单元以及其他装置处的显示单元，以在两者上进行显示。

在参照图4所述的信息处理装置400中，将所采集的视频发送至例如位于云端的计算机，所述计算机执行如上所述的操作之后将结果返回至所述信息处理装置400，由此，能够不受背景噪音影响地、快捷准确地识别说话者所表达的含义并将其直观显示出来。由此，即便终端处的装置的处理能力有限，也能够通过与服务器侧的计算机合作而实现人脸识别。

替代地，在终端处的装置与服务器处的计算机之间的通信速率不高的情况下，或者在终端处的装置的处理能力相对较高的情况下，所述装置可以在终端处提取所述关键点集或基于所述关键点集而获得的关键特征，并将所提取的所述特征集或所述关键特征发送至位于云端的服务器，以减少数据传输量，缩短用于数据传输的时间。

也就是说，在一示例中，所述信息处理装置可以可选地包括提取单元，用于对于所述视频的每一帧图像，提取所述图像中表示唇部的结构信息的关键点集。所述发送单元420替代发送所述视频而发送所述关键点集。在所述云端的计算机处，在所述计算机程序指令被所述处理器运行时还执行以下步骤：跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征；以及基于所述关键特征识别所述视频，以生成所述识别信息。

在另一示例中，所述信息处理装置可以可选地包括提取单元和跟踪单元。所述提取单元用于对于所述视频的每一帧图像，提取所述图像中表示唇部的结构信息的关键点集。所述跟踪单元用于跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征。所述发送单元420替代发送所述视频而发送所述关键特征。在所述云端的计算机处，在所述计算机程序指令被所述处理器运行时还执行以下步骤：基于所述关键特征识别所述视频，以生成所述识别信息。

此外，根据本公开实施例，还提供了一种计算机程序产品。根据本公开实施例的计算机程序产品包括计算机可读存储介质，在所述计算机可读存储介质上存储了计算机程序指令。

所述计算机程序指令在被计算机运行时可以实现根据本公开实施例的信息处理系统的各个功能模块的功能，并且/或者可以执行根据本公开实施例的信息处理方法。

例如，所述计算机程序指令在被计算机运行时可执行以下步骤：采集包括被摄者的唇部动作的视频，识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息以用于显示。

所述计算机可读存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本公开实施例中，单元/模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成单元/模块并且实现该单元/模块的规定目的。

在单元/模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的单元/模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

在上面详细描述的本公开的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本公开的原理和精神的情况下，可对这些实施例进行各种修改，组合或子组合，并且这样的修改应落入本公开的范围内。

Claims

1.一种信息处理方法，包括：

采集包括被摄者的唇部动作的视频；

通过基于级联回归的方法获得级联线性回归模型，并将所述视频的每一帧图像输入所述级联线性回归模型，以提取所述图像中表示唇部的结构信息的关键点集；

跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征；

基于所述关键特征识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及

显示所述识别信息；

其中，所述通过基于级联回归的方法获得级联线性回归模型，包括：

获取在多张图片上标记出的唇部关键点；

计算标记出的唇部关键点中的每个唇部关键点与平均关键点的距离，所述平均关键点是对标记出的所有关键点的向量进行算数平均后所得到的向量所对应的关键点；

从标记出的唇部关键点中的每个唇部关键点上提取特征向量；

根据得到的距离和特征向量，采用最小二乘法得到所述级联线性回归模型。

2.如权利要求1所述的信息处理方法，其中，所述识别信息为文本形式的信息，并且，识别所述视频以生成所述识别信息的步骤包括：

识别所述视频，以生成文本形式的初步信息；以及

基于预定语言模型对所述初步信息进行修改，以生成所述识别信息。

3.如权利要求1所述的信息处理方法，其中，基于所述关键特征识别所述视频以生成所述识别信息的步骤包括：

基于所述关键特征，使用预先训练的神经网络来生成所述识别信息。

4.如权利要求3所述的信息处理方法，其中，所述神经网络预先通过以下步骤而进行训练：

获取训练视频集以及相关联的训练目标集，所述训练视频集中的每个训练视频包含唇部动作，所述训练目标集中的每个训练目标表示相关联的训练视频中的唇部动作所表达的含义；

对于每个训练视频的每一帧图像，提取表示唇部的结构信息的训练关键点集；

跟踪所述训练关键点集中的每一训练关键点在所述训练视频的各帧图像之间的位置的变化，以得到表示唇部动作的训练关键特征；以及

将每个训练视频的所述训练关键特征作为待训练的神经网络的输入，将与每个训练视频相关联的训练目标作为所述神经网络的输出，训练所述神经网络。

5.如权利要求3所述的信息处理方法，其中，所述神经网络包括输入层、卷积层、反馈层、全连接层和输出层，并且，基于所述关键特征使用预先训练的神经网络来生成所述识别信息包括：

将作为特征向量序列的所述关键特征输入所述输入层；

通过所述卷积层，从所述特征向量序列提取卷积层特征；

通过所述反馈层，结合所述视频的前一帧反馈层特征和后一帧反馈层特征，从所述卷积层特征提取当前帧的反馈层特征；

通过所述全连接层，对所述当前帧的反馈层特征进行抽象处理，以生成所述识别信息；以及

通过所述输出层输出所述识别信息。

6.一种信息处理系统，包括：

视频采集单元，采集包括被摄者的唇部动作的视频；

处理单元，识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及

显示单元，显示所述识别信息，

其中，所述处理单元包括：

提取单元，通过基于级联回归的方法获得级联线性回归模型，并将所述视频的每一帧图像输入所述级联线性回归模型，以提取所述图像中表示唇部的结构信息的关键点集；

跟踪单元，跟踪所述关键点集中的每一关键点在各帧图像之间的位置的变化，以得到表示唇部动作的关键特征；以及

生成单元，基于所述关键特征识别所述视频，以生成所述识别信息；

所述提取单元具体用于：

获取在多张图片上标记出的唇部关键点；

7.如权利要求6所述的信息处理系统，其中，所述识别信息为文本形式的信息，并且，所述处理单元还包括：

识别单元，识别所述视频，以生成文本形式的初步信息；以及

生成单元，基于预定语言模型对所述初步信息进行修改，以生成所述识别信息。

8.如权利要求6所述的信息处理系统，其中，所述生成单元配置为：

9.如权利要求8所述的信息处理系统，还包括：

获取单元，获取训练视频集以及相关联的训练目标集，所述训练视频集中的每个训练视频包含唇部动作，所述训练目标集中的每个训练目标表示相关联的训练视频中的唇部动作所表达的含义；

训练关键点提取单元，对于每个训练视频的每一帧图像，提取表示唇部的结构信息的训练关键点集；

训练关键点跟踪单元，跟踪所述训练关键点集中的每一训练关键点在所述训练视频的各帧图像之间的位置的变化，以得到表示唇部动作的训练关键特征；以及

训练单元，将每个训练视频的所述训练关键特征作为待训练的神经网络的输入，将与每个训练视频相关联的训练目标作为所述神经网络的输出，训练所述神经网络。

10.如权利要求8所述的信息处理系统，其中，所述神经网络包括输入层、卷积层、反馈层、全连接层和输出层，并且，所述生成单元配置为：

将作为特征向量序列的所述关键特征输入所述输入层；

通过所述卷积层，从所述特征向量序列提取卷积层特征；

通过所述输出层输出所述识别信息。

11.一种信息处理装置，包括：

视频采集单元，采集包括被摄者的唇部动作的视频；

发送单元，将所述视频发送至与所述信息处理装置可通信地连接的计算机；

接收单元，从所述计算机接收与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；以及

显示单元，显示所述识别信息，

其中，所述识别信息是由所述计算机执行以下步骤生成的：

基于所述关键特征识别所述视频，以生成与所述被摄者通过所述唇部动作所表达的含义对应的识别信息；

所述通过基于级联回归的方法获得级联线性回归模型是由所述计算机执行以下步骤生成的：

获取在多张图片上标记出的唇部关键点；

计算标记出的唇部关键点中的每个唇部关键点与平均关键点的距离，所述平均关键点是对标记出的所有唇部关键点的向量进行算数平均后所得到的向量所对应的关键点；