CN102693008B

CN102693008B - 信息的识别方法、装置及终端

Info

Publication number: CN102693008B
Application number: CN201210148674.7A
Authority: CN
Inventors: 刘春林
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2012-05-14
Filing date: 2012-05-14
Publication date: 2015-11-25
Anticipated expiration: 2032-05-14
Also published as: CN102693008A

Abstract

本发明涉及一种信息的识别方法、装置及终端。该方法包括：采集视频数据，在视频数据中提取图像帧；将图像帧划分多个分区，用分区标识信息标识分区，提取并保存图像帧的每一个分区的特征值；根据分区标识信息，计算分区标识信息对应的分区的多个特征值的变化信息；根据分区标识信息，在数据库中查询分区标识信息对应的分区的多个特征值和多个特征值的变化信息对应的检索文本和/或符号信息；将检索文本和/或符号信息输出。本发明提供了一种新的信息识别方法，实现了终端将用户面部的动作识别为文本或符号信息，并将文本或符号信息输入到指定的输入位置。

Description

信息的识别方法、装置及终端

技术领域

本发明涉及信息技术领域，尤其涉及一种信息的识别方法、装置及终端。

背景技术

目前，随着语音输入技术的发展，很多手机终端都可以通过语音实现文字输入。语音输入是一种简便、易用的输入方法，终端将操作者的语音识别为汉字，实现了输入。

然而，用户必须在比较安静的环境下进行语音输入，而且声音必须清晰，否则无法被终端正确识别，可能导致输入一些错误的文字，降低了语音输入的准确率。另外，如果用户无法发出声音，也无法使用语音输入来实现输入，降低了语音输入操作的易用性。

发明内容

本发明实施例提供了一种信息的识别方法、装置及终端，可以实现终端将用户面部的动作识别为文本或符号信息，提供了一种新文本或符号信息的输入方法。

一方面，本发明实施例提供了一种信息的识别方法，所述方法包括：

终端采集视频数据，在所述视频数据中提取图像帧；

将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每一个分区的特征值；

根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息；

根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息；

显示所述检索文本和/或符号信息。

另一方面，本发明实施例提供了一种信息的识别装置，所述装置包括：

采集单元，用于采集视频数据，在所述视频数据中提取图像帧；

提取单元，用于将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每一个分区的特征值；

计算单元，用于根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息；

查询单元，用于根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息；

显示单元，用于显示所述检索文本和/或符号信息。

又一方面，本发明实施例还提供了一种终端，包括上述的信息识别装置。

本发明实施例中，终端需要输入文字或符号信息时，可以采集视频数据，在所述视频数据中提取图像帧；将图像帧划分为多个分区，并提取每个分区的特征值；然后计算每个分区的特征值的变化信息，根据每个分区的特征值和特征值的变化信息，查询对应的检索文本和/或符号信息，显示检索文本和/或符号信息。由此实现了将用户的面部动作识别为用户想要输入的文本或符号信息，提高了终端设备输入信息的便捷性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种信息的识别方法流程图；

图2为本发明实施例提供的一种信息的识别装置示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如图像分区及图像分区的特征值的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

本发明实施例提供的信息的识别方法、装置及终端在实际应用时，作为一种新的信息的识别方法可应用于用户需要在终端上输入文本或符号信息的场景。用户在终端中输入信息的方法有多种，语音输入、键盘输入、手写板输入等。本发明实施例提供了一种新的信息的识别方法，即面部动作图像输入方法。此输入方法可以与语音输入方法结合使用，也可以单独使用，终端通过对用户面部动作图像进行分析，可以将用户的面部动作识别为用户想要输入的文本或符号信息。

本发明实施例针对现有技术的缺陷，提供了一种信息的识别方法、装置及终端。终端需要输入文字或符号信息时，可以采集视频数据，在所述视频数据中提取图像帧；将图像帧划分为多个分区，并提取每个分区的特征值；然后计算每个分区的特征值的变化信息，根据每个分区的特征值和特征值的变化信息，在本地数据库或网络服务器中查询对应的检索文本和/或符号信息，显示检索文本和/或符号信息。由此实现了将用户的面部动作识别为用户想要输入的输入文本或符号信息，提高了终端设备输入信息的便捷性。

图1为本发明实施例提供的一种信息的输入方法流程图。该实施例的执行主体是终端，其中详细描述了终端将用户的面部动作识别为文本或符号信息，并将文本或符号信息输入终端的方法。如图1所示，本实施例包括以下步骤：

步骤101，终端采集视频数据，在所述视频数据中提取图像帧。

在终端设备中输入文本或符号信息之前，首先根据接收到的用户的操作指令，将终端置为信息输入状态，如在想要输入短信内容、备忘录内容、通讯录内容时，会首先执行新建信息的操作指令，终端接收到该操作指令后，打开文字或符号输入功能；然后通过键盘上的按键或按钮开启通过面部动作输入文本或符号信息的功能。

开启通过面部动作输入文本或符号信息的功能后，终端通过摄像头拍摄用户面部动作，在用户说话的过程中，用户的上下嘴唇、眼神、牙齿和舌头都会有相应的动作，终端捕捉用户的面部动作后，将动作作为视频数据存储在内部存储部件中。

在采集的视频数据中提取多个图像帧，用以终端通过后面的技术方案对连续的图像帧进行分析，以获得用户所说的文字或符号。

步骤102，终端将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每一个分区的特征值。

每一个图像帧中都包括人脸区域，终端首先识别图像帧中的人脸区域，然后将人脸区域划分为多个分区，如可以划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。然后提取各个分区的特征值，如嘴唇分区的特征值可以为上下嘴唇之间的距离、嘴角上扬的幅度等，牙齿分区的特征值可以为露出的牙齿的数量，舌头分区的特征值可以为露出的舌头的面积或部位等等。

对人脸区域进行分区划分后，为了便于提取并保存每个分区的特征值，可以给每个分区设置一个标识信息，该标识信息可以为各个分区的名称，如“眼睛”分区，也可以用数字来作为每个分区的标识信息，如“1号”分区为眼睛分区的标识信息。

终端提取出每一个图像帧中的每个分区的特征值后，将各个分区的特征值按照分区标识信息存储在存储部件中，即一个分区在多个图像帧中的特征值存储在一个分区标识信息下，在存储特征值时还要存储该特征值对应的图像帧在视频中的时间帧信息。

步骤103，终端根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息。

终端在提取并保存各个分区的多个特征值后，计算相同的分区在不同的图像帧中的特征值的变化信息。终端可以将同一个分区在连续的图像帧中的多个特征值，如其中每两个特征值的差值作为变化信息；也可以计算连续的图像帧中的多个特征值，如其中每两个特征值的变化率，即计算每两个特征值的变化量与时间差值的比值作为变化信息。

步骤104，终端根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。

为了实现本发明的技术方案，在实际应用中，终端数据库中保存了的变化信息与检索文本和/或符号信息的映射关系，终端可以在开启视频输入法时，从该数据库中检索出与分区标识信息对应的分区的多个特征值和所述多个特征值对应的文本和/或符号信息。当然，终端也中也可以不保存该数据库，在需要获取与分区标识信息对应的分区的多个特征值和所述多个特征值对应的文本和/或符号信息时，终端可以自动从网络服务器的数据库中获取。

根据分区在各个图像帧中的特征值以及特征值的变化信息，可以查询出对应的检索文本或符号信息。该数据库中存储了特征值及特征值变化信息与检索文本和/或符号的对应关系。例如，当用户吐舌头时，根据用户舌头的特征值及特征值的变化信息，可以在数据库中检索出“可爱表情”符号，即识别该面部动作为一个“可爱表情”的符号；或者当用户说出“你好”两个字时，根据用户嘴唇的特征值为及特征值的变化信息，可以在数据库中检索出“你好”两个文字。

当然，对于相同的面部动作及动作变化，在数据库中可以对应多个信息，如对于一个面部动作计算出的特征值及特征值的变化信息，可以在数据库中检索出“等级”“登记”“登机”“登基”等多组信息，此时可将所有分组信息都检索出来作为检索文本和/或符号信息。

步骤105，终端显示所述检索文本和/或符号信息。

终端在数据库中检索出多组信息后，还将显示从数据库中检索到的检索文本和/或符号信息输出并显示，并接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。

如步骤104中所述，终端在数据库中检索出“等级”“登记”“登机”“登基”等多组信息后，检索文本和/或符号信息后，终端可以将该多组信息作为检索文本和/或符号信息显示出来，用户可以在多组信息中选择自己真正要输入的信息，此时，终端接收到选择指令后，将选择的信息作为输入文本和/或符号信息，并将该信息复制到指定位置，至此即可将输入文本和/或符号信息输入到指定的位置。

需要说明的是，本发明实施例提供的技术方案可以单独使用，也可以与语音输入技术方案结合使用，以快速确定用户要输入的信息。

本发明实施例中，终端需要输入文字或符号信息时，可以采集视频数据，在所述视频数据中提取图像帧；将图像帧划分为多个分区，并提取每个分区的特征值；然后计算每个分区的特征值的变化信息，根据每个分区的特征值和特征值的变化信息，在数据库中查询对应的检索文本和/或符号信息，显示检索文本和/或符号信息。由此实现了将用户的面部动作识别为用户想要输入的文本或符号信息，提高了终端设备输入信息的便捷性。

相应地，本发明实施例还提供了一种信息的识别装置。图2为本发明实施例提供的一种信息的识别装置示意图。该实施例详细描述了终端将用户的面部动作识别为文本或符号信息，并将文本或符号信息输入终端的各个功能模块。如图2所示，本实施例包括以下单元：

采集单元201，用于采集视频数据，在所述视频数据中提取图像帧。

在采集的视频数据中提取多个图像帧，用以对这几个图像帧进行分析，获得用户所说的文字或符号。

提取单元202，用于将所述图像帧划分多个分区，所述分区用分区标识信息标识，提取并保存所述图像帧的每一个分区的特征值。

提取单元202具体用于：识别所述图像帧中的人脸区域；将所述图像帧中的所述人脸区域划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。

每一个图像帧中都包括人脸区域，终端首先识别图像帧中的人脸区域，然后将人脸区域划分为多个分区，如可以划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。然后提取各个分区的特征值，如嘴唇分区的特征值可以为上下嘴唇之间的距离、嘴角上扬的幅度等，牙齿分区的特征值可以为露出的牙齿的数量，舌头分区的特征值可以为露出的舌头的面积或部位等等。终端提取出每一个图像帧中的每个分区的特征值后，将各个分区的特征值按照分区标识信息存储在存储部件中，即一个分区在多个图像帧中的特征值存储在一个分区标识信息下，在存储特征值时还要存储该特征值对应的图像帧在视频中的时间帧信息。

计算单元203，用于根据所述分区标识信息，计算所述分区标识信息对应的分区的多个特征值的变化信息。

计算单元203具体用于：根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化量；或根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化率。

查询单元204，用于根据所述分区标识信息，查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。

根据分区在各个图像帧中的特征值以及特征值的变化信息，在数据库中可以查询出对应的检索文本或符号信息。该数据库中存储了特征值及特征值变化信息与检索文本和/或符号的对应关系。例如，当用户吐舌头时，根据用户舌头的特征值及特征值的变化信息，可以在数据库中检索出“可爱表情”符号，即识别该面部动作为一个“可爱表情”的符号；或者当用户说出“你好”两个字时，根据用户嘴唇的特征值为及特征值的变化信息，可以在数据库中检索出“你好”两个文字。

显示单元205，用于显示所述检索文本和/或符号信息。

当然，终端在数据库中检索出多组信息后，还将显示从数据库中检索到的检索文本和/或符号信息，并接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。

如查询单元204在数据库中检索出“等级”“登记”“登机”“登基”等多组信息后，检索文本和/或符号信息后，终端将该多组信息当做检索文本和/或符号信息显示出来，用户可以在多组信息中选择并单击自己真正要输入的信息，此时，终端接收到单击处理指令后，将该信息作为输入文本和/或符号信息，并将该信息复制到指定位置，至此即可将输入文本和/或符号信息输入到指定的位置。

优选地，本发明实施例还包括：设置单元206，用于接收用户的操作指令，将本地终端置为信息输入状态。

在用户想要输入信息时，首先将终端置为信息输入状态，如在想要输入短信内容时，会首先执行新建信息的操作指令，终端接收到该操作指令后，打开文字或符号输入功能。

优选地，本发明实施例还包括：处理单元207，用于接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。

在将输入文本和/或符号信息复制到指定位置之前，终端还将显示从数据库中检索到的检索文本和/或符号信息，并接收用户的处理指令，根据用户的处理指令，从检索到的检索文本和/或符号信息中选择要输入的输入文本和/或符号信息。

进一步的，本发明实施例还提供了一种终端，所述终端包括上述信息识别装置。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息的识别方法，其特征在于，所述方法包括：

采集视频数据，在所述视频数据中提取图像帧；

显示所述检索文本和/或符号信息；

其中，所述计算所述分区标识信息对应的分区的多个特征值的变化信息具体为：根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化量；或

根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化率；

所述查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息具体为：在本地数据库或网络服务器中查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。

2.如权利要求1所述的信息的识别方法，其特征在于，所述采集视频数据，在所述视频数据中提取图像帧之前还包括：接收用户的操作指令，将终端置为信息输入状态。

3.如权利要求1-2任一项所述的信息的识别方法，其特征在于，所述显示所述检索文本和/或符号信息之后还包括：接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。

4.如权利要求1-2任一项所述的信息的识别方法，其特征在于，所述将所述图像帧划分多个分区具体为：

识别所述图像帧中的人脸区域；

将所述图像帧中的所述人脸区域划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。

5.一种信息的识别装置，其特征在于，所述装置包括：

显示单元，用于显示所述检索文本和/或符号信息；

其中，所述计算单元具体用于：根据所述分区标识信息，计算所述分区标识信息对应的分区在连续的图像帧中的多个特征值的变化量；或

所述查询单元具体用于:在本地数据库或网络服务器中查询所述分区标识信息对应的分区的多个特征值和所述多个特征值的变化信息对应的检索文本和/或符号信息。

6.如权利要求5所述的信息的识别装置，其特征在于，所述装置还包括：设置单元，用于接收用户的操作指令，将所述装置设置为信息输入状态。

7.如权利要求5-6任一项所述的信息的识别装置，其特征在于，所述装置还包括：处理单元，用于接收用户的处理指令，根据所述处理指令，从所述检索文本和/或符号信息中选择输入文本和/或符号信息，并将所述输入文本和/或符号信息输入到指定的位置，用以完成信息输入。

8.如权利要求5-6任一项所述的信息的识别装置，其特征在于，所述提取单元具体用于：识别所述图像帧中的人脸区域；将所述图像帧中的所述人脸区域划分为眼睛分区、鼻子分区、嘴唇分区、牙齿分区、舌头分区。

9.一种终端，其特征在于，包括如权利要求5至8任一项所述的信息的识别装置。