CN112672021A

CN112672021A - 语言识别方法、装置及电子设备

Info

Publication number: CN112672021A
Application number: CN202011566731.4A
Authority: CN
Inventors: 李沛德; 王丹
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16
Anticipated expiration: 2040-12-25
Also published as: CN112672021B

Abstract

本申请公开了一种语言识别方法、装置及电子设备，属于通信技术领域，能够解决电子设备进行人脸运动部位的信息识别的效率和成功率较低的问题。该方法包括：通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线；根据目标光线，通过实感像素传感器获取目标部位的目标图像序列，该目标部位为人脸部位中处于运动状态的部位；根据目标图像序列，输出目标部位对应的语言信息。本申请实施例应用于电子设备进行人脸运动部位的信息识别的过程中。

Description

语言识别方法、装置及电子设备

技术领域

本申请属于通信技术领域，具体涉及一种语言识别方法、装置及电子设备。

背景技术

通常，用户可以电子设备的镜头进行图像采集，以用于人脸识别、唇语识别等功能。具体的，电子设备可以基于镜头的传感器中的大量感光二极管，先清空每个感光二极管中积累的电荷，然后在设定的曝光时间内，对用户人脸的光信号进行转换处理，以形成数字信号矩阵(即图像)，再通过传感器的进行卷帘式曝光(rolling shutter)，即传感器逐行扫描逐行进行曝光，直至所有像素点都被曝光，以捕捉用户的图像，从而获得正在说话的用户的口型信息，实现唇语识别功能。

然而，上述方式会导致镜头的成像速度变慢，在拍摄运动的对象(例如高速运动物体)时，会出现“倾斜”、“摇摆不定”或“部分曝光””等现象，该现象被定义为果冻效应，从而导致捕捉图像信号的实时性和准确性较差，如此导致电子设备进行人脸运动部位的信息识别的效率和成功率较低。

发明内容

本申请实施例的目的是提供一种语言识别方法、装置及电子设备，能够解决电子设备进行人脸运动部位的信息识别的效率和成功率较低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语言识别方法，应用于电子设备，电子设备的摄像头模组包括FPI多光谱组件和实感像素传感器，该语言识别方法包括：通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线；根据目标光线，通过实感像素传感器获取目标部位的目标图像序列，该目标部位为人脸部位中处于运动状态的部位；根据目标图像序列，输出目标部位对应的语言信息。

第二方面，本申请实施例提供了一种语言识别装置，该语言识别装置的摄像头模组包括FPI多光谱组件和实感像素传感器，该语言识别装置包括：获取模块和输出模块。其中，获取模块，用于通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线；并根据目标光线，通过实感像素传感器获取目标部位的目标图像序列，该目标部位为人脸部位中处于运动状态的部位。输出模块，用于根据获取模块获取的目标图像序列，输出目标部位对应的语言信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，电子设备可以通过摄像头模组上的FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线，并根据该目标光线，通过实感像素传感器获取处于运动状态的目标部位的目标图像序列，以根据目标图像序列，输出目标部位对应的语言信息。由于电子设备的摄像头模组包括FPI多光谱组件和实感像素传感器，因此电子设备可以通过FPI多光谱组件对人脸光线进行筛选(即仅获取人脸部位的光线)，以减小冗余数据量，从而使得实感像素传感器可以快速地基于该人脸部位的光线得到对应的图像；并且，由于实感像素传感器是用于采集处于运动状态的对象的图像的，且具有实时抓取高精度动态物体的特性，因此通过实感像素传感器能够采集到处于运动状态的目标部位的图像序列，即通过实感像素传感器能够准确地获取到目标部位的运动变化情况，从而电子设备可以根据该图像序列快速、准确地输出对应的语言信息，如此提升了电子设备进行人脸运动部位的信息识别(例如唇语识别)的效率和成功率。

附图说明

图1是本申请实施例提供的一种语言识别方法的示意图之一；

图2是本申请实施例提供的一种镜头模组的结构示意图之一；

图3是本申请实施例提供的一种镜头模组的结构示意图之二；

图4是本申请实施例提供的一种FPI多光谱组件的结构示意图；

图5是本申请实施例提供的一种光线处理模块的示意图；

图6是本申请实施例提供的一种实感像素的排列分布示意图；

图7是本申请实施例提供的一种语言识别装置的结构示意图；

图8是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图9是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面对本申请实施例提供的语言识别方法、装置及电子设备中涉及的一些概念和/或术语做一下解释说明。

相机传感器(sensor)：是相机的核心，也是相机中最关键的技术。传感器一般分为两种：一种是广泛使用的CCD(电荷耦合)元件，另一种是CMOS(互补金属氧化物半导体)器件。

目前使用的CMOS器件，与CCD一样同为在数码相机中可记录光线变化的半导体。与传统相机相比，传统相机使用“胶卷”作为其记录信息的载体，而数码相机的“胶卷”就是其成像感光元件，感光元件就是数码相机的不用更换的“胶卷”而且是与相机一体。CMOS的大致工作流程是，通过大量的感光二极管(pixel)，感知光信号，转换成电信号，通过放大电路，AD转换电路，形成数字信号矩阵(即图像)，再经过ISP处理，压缩存储起来。

多光谱、高光谱甚至超光谱的相机或者成像仪最早的应用是来自于航空照相，也就是说通常是用于卫星遥感。顾名思义，多光谱成像是按照光谱分辨率(能分辨的最小波长间隔)把入射的全波段或宽波段的光信号分成若干个窄波段的光束，再让光束成像在Sensor上面。如果光谱分辨率足够高，多光谱技术就可以将入射的光谱曲线完全采样出来，在民用、军事领域都有广泛应用(无人机侦查、农业病虫害监测、土壤肥力、水域污染监测等)。

唇语识别系统使用机器视觉技术，从图像中连续识别出人脸，判断其中正在说话的人，提取此人连续的口型变化特征，随即将连续变化的特征输入到唇语识别模型中，识别出讲话人口型对应的发音，随后根据识别出的发音，计算出可能性最大的自然语言语句。

本申请实施例可以应用于唇部识别场景、眼部运动信息识别等人脸运动部位的信息识别场景中。基于新型sensor设计一种相机模组结构，电子设备可以基于多光谱(即FPI多光谱组件)和实感像素技术(即实感像素传感器)，利用多光谱筛选人脸光谱，减小冗余数据量，然后利用实感像素实时抓取的高精度动态物体的轮廓图，实现准确、实时地获取用户的口型信息或眼部运动信息，并对比口型信息库(或眼部运动信息库)翻译成对应的语言信息，提升了人脸运动部位的信息识别(例如唇语识别)的成功率和效率。

本申请实施例提供一种语言识别方法，图1示出了本申请实施例提供的一种语言识别方法的流程图，该方法可以应用于电子设备。如图1所示，本申请实施例提供的语言识别方法可以包括下述的步骤201至步骤203。

步骤201、电子设备通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线。

本申请实施例中，电子设备的摄像头模组包括法珀干涉仪(FPI)多光谱组件和实感像素传感器。

本申请实施例中，用户可以开启具有人脸运动部位识别功能(例如唇语识别功能、眼部识别功能)的应用程序，以通过电子设备的摄像头，基于多光谱和实感像素技术，采集待拍摄对象(例如被拍摄人物)中的处于运动状态的部位的图像，以根据采集的该部位的图像，确定该部位对应的语言信息。

本申请实施例中，电子设备包括镜头模组，该镜头模组至少包括以下组件：镜头、FPI多光谱组件和传感器(例如实感像素传感器、常规传感器、红外滤光片等)。电子设备可以通过FPI多光谱组件和多光谱技术，获取特定光谱的光线(例如人脸部位的目标光线)，以实现仅对人脸部位进行图像采集。

需要说明的是，电子设备的镜头模组的内部空间在设计时，可以做大一些并且在镜头模组的底部侧面留出一定的空间，以保证能够放置FPI多光谱组件，且FPI多光谱组件与红外滤光片的切换不受干扰。FPI多光谱组件和红外滤光片在镜头模组内部的具体固定方式，可以根据实际使用需求确定，本申请实施例不作限制。

可选地，本申请实施例中，上述FPI多光谱组件可以设置在镜头内侧(即镜头与传感器之间)；红外滤光片可以设置在FPI多光谱组件与传感器之间。

可选地，本申请实施例中，上述FPI多光谱组件的设置方式可以为可抽拉方式或轮盘方式等。可抽拉方式可以是由电子设备控制的，也可以是机械系统控制的，本申请实施例不作限制。

示例性的，如图2所示，电子设备的镜头模组包括镜头、FPI多光谱组件、红外滤光片和传感器(例如实感像素传感器)；待拍摄对象的光线通过FPI多光谱组件进行光线筛选后，将透过FPI多光谱组件的特定光谱的光线(例如人脸部位的目标光线)传入到传感器中，以通过传感器实现图像的采集。

又示例性的，如图3所示，在进行常规图像采集(即无需进行特定光谱的光线的筛选)时，电子设备可以控制FPI多光谱组件移动至其他位置，以使得待拍摄对象的光线无需经过FPI多光谱组件的筛选，而是直接经过红外滤光片进入到传感器中，以通过传感器实现图像的采集。

可选地，本申请实施例中，上述镜头模组还可以包括以下至少一项：镜头保护盖、VCM、镜头支架、红外滤光片、柔性电路板(FPC)、镜头模组连接器等。

需要说明的是，物质的光谱具有唯一性，任何物质都有唯一的光谱反射曲线，即拉曼散射谱线。拉曼散射可以直接反映分子或晶格的振动、转动能级，对于不同物质来说，它们的组成成分或结构(分子、原子)不一样，所以任何两种不同的物质不会有完全相同的拉曼谱线，即物质的光谱反射曲线一定是唯一的，因此可以通过FPI多光谱组件筛选掉不需要的光谱的光线，得到特定光谱的光线。

并且，摄像头模组的传感器感光的方式和人眼类似，像素上覆盖的CFA模拟人眼的三种视锥细胞，对光谱反射曲线进行采样，形成数字信号后通过ISP的处理，最终成为图像，所以传感器成像是对入射光谱曲线进行三原色采样，形成三个离散数据(也可以理解为三光谱采样)，最终混合成颜色和亮度，所以人眼和摄像头的只能看到颜色和亮度，无法看到光谱曲线的细节(同色异谱现象)。电子设备的摄像头对很多物质特征和属性(例如肤色健康程度等特征)是不具备识别能力的，而多光谱技术可以协助摄像头的传感器对物质特征和属性进行识别，多光谱技术可以分为时域多光谱和空域多光谱。

可选地，本申请实施例中，上述FPI多光谱组件可以包括法珀腔动子(rest)和法珀腔定子(fixed)。一种实现方式，用户可以通过调整法珀腔动子与法珀腔定子之间的距离，以使得在目标光谱范围内的光线(例如目标光线)透过FPI多光谱组件；另一种实现方式，用户可以在电子设备中输入一个光谱范围(例如下述实施例所述的目标光谱范围)，以使得电子设备控制法珀腔动子与法珀腔定子之间的距离，从而使得在目标光谱范围内的光线透过FPI多光谱组件。

可以理解，上述两种方式中，仅允许在目标光谱范围内的光线(即特定光谱的光线)透过FPI多光谱组件以进入到传感器中，使得传感器基于该特定光谱的光线进行图像采集，而在目标光谱范围外的光线并不能透过FPI多光谱组件进入到传感器中。

可选地，本申请实施例中，上述FPI多光谱组件包括法珀腔动子和法珀腔定子。在上述步骤201之前，本申请实施例提供的语言识别方法还包括下述的步骤301，并且上述步骤201具体可以通过下述的步骤201a实现。

步骤301、电子设备接收用户的第一输入。

本申请实施例中，上述第一输入为用户对目标光谱范围的输入，上述目标光线的光谱在目标光谱范围内。

本申请实施例中，用户可以在电子设备中输入目标光谱范围，以使得电子设备在检测到光线时，允许光谱位于目标光谱范围内的光线(例如人脸部位的光线)透过FPI多光谱组件进入到传感器中，而将其他光线滤除掉，从而使得传感器基于接收到的光线进行图像采集。

步骤201a、电子设备响应于第一输入，控制法珀腔动子与法珀腔定子之间的距离在预设距离范围内，以允许在目标光谱范围内的光线透过FPI多光谱组件，以获取目标光线。

本申请实施例中，不同的距离范围对应的不同的光谱频段(即允许透过的光谱的频段)，电子设备可以根据用户输入的目标光谱范围，控制法珀腔定子移动，以使得法珀腔动子与法珀腔定子之间的距离在预设距离范围(该预设距离范围对应目标光谱范围)，从而使得FPI多光谱组件仅透过在目标光谱范围内的光线(例如目标光线)，而在目标光谱范围外的光线并不能够透过FPI多光谱组件进入到传感器中，即在目标光谱范围外的光线被滤除掉了。

示例性的，如图4所示，上述FPI多光谱组件包括法珀腔动子和法珀腔定子，法珀腔动子和法珀腔定子均处于初始位置时，法珀腔动子与法珀腔定子之间的距离最大(例如距离d1)，可以通过移动法珀腔动子，调整法珀腔动子与法珀腔定子之间的距离，使得FPI多光谱组件的法珀腔可以透过特定波段(与法珀腔动子与法珀腔定子之间的距离所在距离范围对应的波段)的光线，例如调整到最小距离d2，此时法珀腔动子处于移动后的位置(图4中以虚线框示意)。

需要说明的是，本申请实施例中，上述实感像素传感器可以理解为一种新型的传感器，是在常规传感器中集成一些特殊像素(可以称为实感像素)，这些像素可以独立输出运动物体的信息，以利用实感像素实时地抓取高精度动态物体的轮廓图(例如抓取正在说话的被拍摄人物的唇部信息)。针对通过实感像素传感器获取运动状态下的图像的方法，将在下述实施例中进行描述，此处不予赘述。

本申请实施例中，用户可以通过多光谱技术选择想要获取的特定光谱，以使得电子设备实现仅对人脸部位的图像进行采集，达到剔除冗余信息的目的，进而再通过实感像素技术只对动态物体进行高精度识别，以快速、准确地获取运动区域对应的语言信息。

步骤202、电子设备根据目标光线，通过实感像素传感器获取目标部位的目标图像序列。

本申请实施例中，上述实感像素传感器用于采集处于运动状态的对象的图像；上述目标部位为人脸部位中处于运动状态的部位。

本申请实施例中，上述目标图像序列包括目标部位的多帧图像，即目标图像序列为在目标部位运动过程中实时采集的目标部位的图像。

可选地，本申请实施例中，上述目标部位可以为人脸部位中的唇部部位或眼睛部位。

本申请实施例中，用户在启用具有唇语识别功能的应用程序之后，电子设备的摄像头模组中的实感像素传感器处于工作状态，在检测到被拍摄人物的唇部部位处于运动状态(例如正在说话状态)的情况下，可以实时地获取处于运动状态的唇部部位的多帧图像，该多帧图像中的每帧图像分别对应一个口型信息。

本申请实施例中，用户可以在电子设备中，预先定义眨眼或眼球运动信息与语言信息的对应关系，以存储在眼部运动信息库。从而，用户在启用具有眼部识别功能的应用程序之后，电子设备的摄像头模组中的实感像素传感器处于工作状态，在检测到被拍摄人物的眼睛部位处于运动状态(例如正在眨眼状态)的情况下，可以实时地获取处于运动状态的眼睛部位的多帧图像，该多帧图像中的每帧图像分别对应一个眼部运动信息，从而电子设备可以根据眼部运动信息与语言信息的对应关系，确定对应的语言信息。

需要说明的是，实感像素传感器相比较于常规传感器，常规传感器要在一个时间段内(和帧率相关)对光信息做积分后按照顺序逐个读出，而实感像素传感器可以分别独立的，随着像素时钟频率(即每个时间单位)，实感像素传感器可以实时感知外界环境亮度变化(即光线亮度变化)，将环境亮度的变换转化成电流的变化，进而转换成数字信号的变化，如果某个实感像素的数字信号的变化量超过预设阈值(例如下述实施例所述的VH和VL)，则会上报系统要求输出对应的图像(即确定该实感像素对应的部位处于运动状态)，并且输出带有坐标信息、亮度信息、时间信息的数据包。所以，实感像素传感器相比较于常规传感器的实时性更好，信号冗余性更好，精度更高，可以捕捉动态物体的运动信息，具有较高的实时性和精度。

可以理解，上述实感像素传感器是用来采集处于运动状态的对象的图像的，而对于静止状态的对象，实感像素传感器是可以不进行图像采集的。

示例性的，如图5所示，电子设备可以通过电流放大模块对输入的光信号(光线对应的光信号)进行电流放大处理，然后通过模数转换模块对电流放大处理后的光信号进行信号转换处理，得到对应的数字信号，再通过逻辑判断模块判断数字信号的变化量(即上一时钟频率的数字信号与当前时钟频率的数字信号的强度变化量)是否超过预设阈值VH和VL(图中VH为上一时钟频率时该实感像素的数字信号值+阈值，VL为上一时钟频率时该实感像素的数字信号值-阈值)，并在数字信号的变化量超过预设阈值的情况下，通过信号控制模块、模拟信号输出模块和多路复用开关模块等，输出对应的模拟信号(即图像)。

可选地，本申请实施例中，电子设备在通过FPI多光谱组件获取目标光线之后，可以通过密度实感像素传感器，获取目标部位的目标图像序列。需要说明的是，密度实感像素传感器是将实感像素按密度插入常规传感器(如图6所示，电子设备的传感器包括常规像素(即红绿蓝(RGB)像素和实感像素)，即使得传感器在不影响正常输出彩色图像的同时，具有精确高速抓取运动物体轮廓的能力。

本申请实施例中，上述通过FPI多光谱组件和密度实感像素传感器获取目标图像序列的方式中，在实现抓取特定光谱下的高速运动物体的图像的同时，可以不损失常规彩色图像的拍摄功能；用户后续需求使用常规彩色图像的拍摄功能时，可以将FPI多光谱组件收回，以实现常规彩色图像的拍摄。

可选地，本申请实施例中，上述步骤202具体可以通过下述的步骤202a和步骤202b实现。

步骤202a、电子设备通过实感像素传感器，将目标光线中满足预设条件的光线对应的部位确定为目标部位。

本申请实施例中，上述预设条件为光线的信号变化量大于或等于预设阈值。

可以理解，在光线的信号变化量大于或等于预设阈值的情况下，可以确定该光线对应的部位处于运动状态。需要说明的是，针对光线的信号变化量的相关说明，可以参见上述步骤202中的描述，此处不再赘述。

步骤202b、电子设备获取目标部位在每个时间单位的像素点信息，并根据像素点信息生成目标图像序列。

本申请实施例中，电子设备可以每隔一个时间单位获取目标部位的像素点信息，并根据获取的当前时间单位的像素点信息生成一帧图像，依次类推，直至目标部位处于静止状态，以获取多帧图像，即目标图像序列。

可选地，本申请实施例中，上述像素点信息可以包括以下至少一项：目标部位对应的像素点亮度值、目标部位对应的像素点分布信息、目标部位对应的像素点颜色值等。

步骤203、电子设备根据目标图像序列，输出目标部位对应的语言信息。

可以理解，上述目标图像序列为目标部位处于运动状态时获取的多帧图像，每帧图像分别对应一个口型信息；电子设备可以根据每帧图像对应的口型信息，确定对应的文字内容，从而根据该多帧图像对应的所有文字内容，确定并输出目标部位对应的语言信息。

可选地，本申请实施例中，上述步骤203具体可以通过下述的步骤203a和步骤203b实现。

步骤203a、电子设备根据目标图像序列，确定目标部位的运动信息。

本申请实施例中，上述运动信息用于指示目标部位的运动变化情况。

本申请实施例中，上述运动信息指示目标图像序列中的每帧图像之间的差异情况(即口型变化情况)，且不同运动信息对应不同口型信息，电子设备可以根据目标部位的运动信息，从预设口型信息库中查找对应的口型信息集合，从而得到目标部位对应的语言信息。

步骤203b、电子设备从预设口型信息库中确定与运动信息对应的口型信息集合，并对口型信息集合进行语言识别处理，以输出语言信息。

本申请实施例中，电子设备可以将目标图像序列与预设口型信息库进行对比，即针对目标图像序列中的每帧图像，从预设口型信息库中查找与一帧图像相匹配的口型信息，以获取目标图像序列对应的口型信息集合，然后电子设备可以识别口型信息集合并翻译为对应的语言信息。

可选地，本申请实施例中，电子设备通过预设方式输出语言信息，该预设方式包括以下至少一项：文字显示方式和语音播放方式等。

本申请实施例中，电子设备可以通过实感像素实时获取目标部位对应的图像序列，以确定相应的运动信息，从而实现准确、实时地获取用户的口型信息，并对比口型信息库翻译成对应的语言信息，提升了唇语识别的成功率和效率。

本申请实施例提供一种语言识别方法，电子设备可以通过摄像头模组上的FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线，并根据该目标光线，通过实感像素传感器获取处于运动状态的目标部位的目标图像序列，以根据目标图像序列，输出目标部位对应的语言信息。由于电子设备的摄像头模组包括FPI多光谱组件和实感像素传感器，因此电子设备可以通过FPI多光谱组件对人脸光线进行筛选(即仅获取人脸部位的光线)，以减小冗余数据量，从而使得实感像素传感器可以快速地基于该人脸部位的光线得到对应的图像；并且，由于实感像素传感器是用于采集处于运动状态的对象的图像的，且具有实时抓取高精度动态物体的特性，因此通过实感像素传感器能够采集到处于运动状态的目标部位的图像序列，即通过实感像素传感器能够准确地获取到目标部位的运动变化情况，从而电子设备可以根据该图像序列快速、准确地输出对应的语言信息，如此提升了电子设备进行人脸运动部位的信息识别的效率和成功率。

需要说明的是，本申请实施例提供的语言识别方法，执行主体可以为语言识别装置，或者该语言识别装置中的用于执行语言识别方法的控制模块。本申请实施例中以语言识别装置执行语言识别方法为例，说明本申请实施例提供的语言识别装置。

图7示出了本申请实施例中涉及的语言识别装置的一种可能的结构示意图，该语言识别装置的摄像头模组包括FPI多光谱组件和实感像素传感器。如图7所示，该语言识别装置70可以包括：获取模块71和输出模块72。

其中，获取模块71，用于通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线；并根据目标光线，通过实感像素传感器获取目标部位的目标图像序列，该目标部位为人脸部位中处于运动状态的部位。输出模块72，用于根据获取模块71获取的目标图像序列，输出目标部位对应的语言信息。

在一种可能的实现方式中，上述FPI多光谱组件包括法珀腔动子和法珀腔定子。本申请实施例提供的语言识别装置70包括：接收模块。其中，接收模块，用于在获取模块71通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线之前，接收用户的第一输入，该第一输入为用户对目标光谱范围的输入，该目标光线的光谱在目标光谱范围内。获取模块71，具体用于响应于接收模块接收的第一输入，控制法珀腔动子与法珀腔定子之间的距离在预设距离范围内，以允许在目标光谱范围内的光线透过FPI多光谱组件，以获取目标光线。

在一种可能的实现方式中，上述获取模块71，具体用于通过实感像素传感器，将目标光线中满足预设条件的光线对应的部位确定为目标部位，该预设条件为光线的信号变化量大于或等于预设阈值；并获取目标部位在每个时间单位的像素点信息，以及根据像素点信息生成目标图像序列。

在一种可能的实现方式中，上述输出模块72，具体用于根据目标图像序列，确定目标部位的运动信息，该运动信息用于指示目标部位的运动变化情况；并从预设口型信息库中确定与运动信息对应的口型信息集合，并对口型信息集合进行语言识别处理，以输出语言信息。

本申请实施例提供一种语言识别装置，由于电子设备的摄像头模组包括FPI多光谱组件和实感像素传感器，因此电子设备可以通过FPI多光谱组件对人脸光线进行筛选(即仅获取人脸部位的光线)，以减小冗余数据量，从而使得实感像素传感器可以快速地基于该人脸部位的光线得到对应的图像；并且，由于实感像素传感器是用于采集处于运动状态的对象的图像的，且具有实时抓取高精度动态物体的特性，因此通过实感像素传感器能够采集到处于运动状态的目标部位的图像序列，即通过实感像素传感器能够准确地获取到目标部位的运动变化情况，从而电子设备可以根据该图像序列快速、准确地输出对应的语言信息，如此提升了电子设备进行人脸运动部位的信息识别的效率和成功率。

本申请实施例中的语言识别装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语言识别装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语言识别装置能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选地，如图8所示，本申请实施例还提供一种电子设备90，包括处理器91，存储器92，存储在存储器92上并可在所述处理器91上运行的程序或指令，该程序或指令被处理器91执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图9为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图9中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

本申请实施例中，电子设备的摄像头模组包括FPI多光谱组件和实感像素传感器。

其中，处理器110，用于通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线；并根据目标光线，通过实感像素传感器获取目标部位的目标图像序列，该目标部位为人脸部位中处于运动状态的部位；以及根据目标图像序列，输出目标部位对应的语言信息。

本申请实施例提供一种电子设备，由于电子设备的摄像头模组包括FPI多光谱组件和实感像素传感器，因此电子设备可以通过FPI多光谱组件对人脸光线进行筛选(即仅获取人脸部位的光线)，以减小冗余数据量，从而使得实感像素传感器可以快速地基于该人脸部位的光线得到对应的图像；并且，由于实感像素传感器是用于采集处于运动状态的对象的图像的，且具有实时抓取高精度动态物体的特性，因此通过实感像素传感器能够采集到处于运动状态的目标部位的图像序列，即通过实感像素传感器能够准确地获取到目标部位的运动变化情况，从而电子设备可以根据该图像序列快速、准确地输出对应的语言信息，如此提升了电子设备进行人脸运动部位的信息识别的效率和成功率。

可选地，本申请实施例中，上述FPI多光谱组件包括法珀腔动子和法珀腔定子。用户输入单元107，用于在处理器110通过FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线之前，接收用户的第一输入，该第一输入为用户对目标光谱范围的输入，该目标光线的光谱在目标光谱范围内。处理器110，具体用于响应于第一输入，控制法珀腔动子与法珀腔定子之间的距离在预设距离范围内，以允许在目标光谱范围内的光线透过FPI多光谱组件，以获取目标光线。

可选地，本申请实施例中，处理器110，具体用于通过实感像素传感器，将目标光线中满足预设条件的光线对应的部位确定为目标部位，该预设条件为光线的信号变化量大于或等于预设阈值；并获取目标部位在每个时间单位的像素点信息，并根据像素点信息生成目标图像序列。

可选地，本申请实施例中，处理器110，具体用于根据目标图像序列，确定目标部位的运动信息，该运动信息用于指示目标部位的运动变化情况；并从预设口型信息库中确定与运动信息对应的口型信息集合，并对口型信息集合进行语言识别处理，以输出语言信息。

本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语言识别方法，其特征在于，应用于电子设备，所述电子设备的摄像头模组包括法珀干涉仪FPI多光谱组件和实感像素传感器，所述方法包括：

通过所述FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线；

根据所述目标光线，通过所述实感像素传感器获取目标部位的目标图像序列，所述目标部位为所述人脸部位中处于运动状态的部位；

根据所述目标图像序列，输出所述目标部位对应的语言信息。

2.根据权利要求1所述的方法，其特征在于，所述FPI多光谱组件包括法珀腔动子和法珀腔定子；

所述通过所述FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线之前，所述方法还包括：

接收用户的第一输入，所述第一输入为用户对目标光谱范围的输入，所述目标光线的光谱在所述目标光谱范围内；

所述通过所述FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线，包括：

响应于所述第一输入，控制所述法珀腔动子与所述法珀腔定子之间的距离在预设距离范围内，以允许在所述目标光谱范围内的光线透过所述FPI多光谱组件，以获取所述目标光线。

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标光线，通过所述实感像素传感器获取目标部位的目标图像序列，包括：

通过所述实感像素传感器，将所述目标光线中满足预设条件的光线对应的部位确定为所述目标部位，所述预设条件为光线的信号变化量大于或等于预设阈值；

获取所述目标部位在每个时间单位的像素点信息，并根据所述像素点信息生成所述目标图像序列。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述目标图像序列，输出所述目标部位对应的语言信息，包括：

根据所述目标图像序列，确定所述目标部位的运动信息，所述运动信息用于指示所述目标部位的运动变化情况；

从预设口型信息库中确定与所述运动信息对应的口型信息集合，并对所述口型信息集合进行语言识别处理，以输出所述语言信息。

5.一种语言识别装置，其特征在于，所述语言识别装置的摄像头模组包括法珀干涉仪FPI多光谱组件和实感像素传感器，所述语言识别装置包括：获取模块和输出模块；

所述获取模块，用于通过所述FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线；并根据所述目标光线，通过所述实感像素传感器获取目标部位的目标图像序列，所述目标部位为所述人脸部位中处于运动状态的部位；

所述输出模块，用于根据所述获取模块获取的所述目标图像序列，输出所述目标部位对应的语言信息。

6.根据权利要求5所述的装置，其特征在于，所述FPI多光谱组件包括法珀腔动子和法珀腔定子；

所述语言识别装置包括：接收模块；

所述接收模块，用于在所述获取模块通过所述FPI多光谱组件，获取待拍摄对象的人脸部位对应的目标光线之前，接收用户的第一输入，所述第一输入为用户对目标光谱范围的输入，所述目标光线的光谱在所述目标光谱范围内；

所述获取模块，具体用于响应于所述接收模块接收的所述第一输入，控制所述法珀腔动子与所述法珀腔定子之间的距离在预设距离范围内，以允许在所述目标光谱范围内的光线透过所述FPI多光谱组件，以获取所述目标光线。

7.根据权利要求5所述的装置，其特征在于，所述获取模块，具体用于通过所述实感像素传感器，将所述目标光线中满足预设条件的光线对应的部位确定为所述目标部位，所述预设条件为光线的信号变化量大于或等于预设阈值；并获取所述目标部位在每个时间单位的像素点信息，以及根据所述像素点信息生成所述目标图像序列。

8.根据权利要求5至7中任一项所述的装置，其特征在于，所述输出模块，具体用于根据所述目标图像序列，确定所述目标部位的运动信息，所述运动信息用于指示所述目标部位的运动变化情况；并从预设口型信息库中确定与所述运动信息对应的口型信息集合，并对所述口型信息集合进行语言识别处理，以输出所述语言信息。

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至4中任一项所述的语言识别方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至4中任一项所述的语言识别方法的步骤。