CN104318218A

CN104318218A - 图像识别方法和装置

Info

Publication number: CN104318218A
Application number: CN201410594523.3A
Authority: CN
Inventors: 顾嘉唯; 余凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2015-01-28
Also published as: EP3016024A2; JP2016091527A; KR20160051496A; EP3016024A3; JP6104227B2; KR101929077B1; US9396387B2; US20160125236A1

Abstract

本发明提出一种图像识别方法和装置，该图像识别方法包括：通过肤色检测获取第一视角的用户视线范围内的手部特征区域；在手部特征区域中，通过对伸出手指的手部形态特征进行模式识别；在所述手指尖对目标物体的外缘进行圈划标定的时间区间内，将手指尖的特征点的帧间位移形成的圈划轨迹封闭连接成一个全周长几何形；将全周长几何形在用户的视线方向与目标物体所在的相垂直平面上进行投影，将投影获得的区域作为识别区域进行图像识别。本发明可以实现用户只需伸出手指，用手指尖对着目标物体的外缘进行圈划，即可快速获得对目标物体的标定和图像分割，进而可以作为对目标物体进行图像识别的识别输入，操作简单，用户体验度高，并且适用性较高。

Description

图像识别方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种图像识别方法和装置。

背景技术

现有技术中，对于图像识别和机器视觉认知的输入均是采用先拍照再确定目标物体的方式，一般是先拍照将目标物体的前景环境和后景环境的图片保存，然后通过手指在屏幕上圈划将目标物体圈选并分割，进而进行图像识别。上述方式需要人工干预标定已经拍过的照片，例如：对已经拍过的照片进行圈划和涂抹，操作步骤繁琐并且用户体验不流畅，一定程度上是反人类常见的认知事物的过程的流程方式。另外，上述方式只适用于带触摸屏的智能终端，适用性较差。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种图像识别方法。通过该方法，用户在对目标物体进行图像识别的过程中，只需伸出手指，用手指尖对着目标物体的外缘进行圈划，即可快速获得对目标物体的标定和图像分割，进而可以作为对目标物体进行图像识别的识别输入，操作简单，用户体验度高，并且适用性较高。

本发明的第二个目的在于提出一种图像识别装置。

为了实现上述实施例，本发明第一方面实施例的图像识别方法，包括：通过肤色检测获取第一视角的用户视线范围内的手部特征区域，并对所述手部特征区域进行实时捕捉和追踪；在被检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别，获得手指尖的特征和位置信息，并对所述手指尖的特征和位置信息进行实时捕捉和追踪；在所述手指尖对目标物体的外缘进行圈划标定的时间区间内，记录所述手指尖的特征点的帧间位移，将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形；将所述全周长几何形在所述用户的视线方向与所述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别。

本发明实施例的图像识别方法，通过肤色检测获取第一视角的用户视线范围内的手部特征区域，在被检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别,在手指尖对目标物体的外缘进行圈划标定的时间区间内，记录手指尖的特征点的帧间位移，将帧间位移形成的圈划轨迹封闭连接成一个全周长几何形，然后将上述全周长几何形在上述用户的视线方向与目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别，从而可以实现用户在对目标物体进行图像识别的过程中，只需伸出手指，用手指尖对着目标物体的外缘进行圈划，即可快速获得对目标物体的标定和图像分割，进而可以作为对目标物体进行图像识别的识别输入，操作简单，用户体验度高，并且适用性较高。

为了实现上述实施例，本发明第二方面实施例的图像识别装置包括：获取模块，用于通过肤色检测获取第一视角的用户视线范围内的手部特征区域；跟踪模块，用于对所述获取模块获取的手部特征区域进行实时捕捉和追踪；所述获取模块，还用于在被所述跟踪模块检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别，获得手指尖的特征和位置信息；所述跟踪模块，还用于对所述手指尖的特征和位置信息进行实时捕捉和追踪；记录模块，用于在所述手指尖对目标物体的外缘进行圈划标定的时间区间内，记录所述手指尖的特征点的帧间位移，将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形；投影模块，用于将所述全周长几何形在所述用户的视线方向与所述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别。

本发明实施例的图像识别装置，获取模块通过肤色检测获取第一视角的用户视线范围内的手部特征区域，在被跟踪模块检测和捕捉到的手部特征区域中，获取模块通过对伸出手指的手部形态特征进行模式识别,在手指尖对目标物体的外缘进行圈划标定的时间区间内，记录模块记录手指尖的特征点的帧间位移，将帧间位移形成的圈划轨迹封闭连接成一个全周长几何形，然后投影模块将上述全周长几何形在上述用户的视线方向与目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别，从而可以实现用户在对目标物体进行图像识别的过程中，只需伸出手指，用手指尖对着目标物体的外缘进行圈划，即可快速获得对目标物体的标定和图像分割，进而可以作为对目标物体进行图像识别的识别输入，操作简单，用户体验度高，并且适用性较高。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明图像识别方法一个实施例的流程图；

图2为本发明图像识别方法另一个实施例的示意图；

图3为本发明图像识别装置一个实施例的结构示意图；

图4为本发明图像识别装置另一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明图像识别方法一个实施例的流程图，如图1所示，该图像识别方法可以包括：

步骤101，通过肤色检测获取第一视角的用户视线范围内的手部特征区域，并对上述手部特征区域进行实时捕捉和追踪。

进一步地，通过肤色检测获取第一视角的用户视线范围内的手部特征区域之前，还可以接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发通过肤色检测获取第一视角的用户视线范围内的手部特征区域的操作。

步骤102，在被检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别，获得手指尖的特征和位置信息，并对上述手指尖的特征和位置信息进行实时捕捉和追踪。

步骤103，在上述手指尖对目标物体的外缘进行圈划标定的时间区间内，记录上述手指尖的特征点的帧间位移，将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形。

具体地，将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形可以为：通过闭合曲线优化算法将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形。

步骤104，将上述全周长几何形在上述用户的视线方向与上述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为上述目标物体的识别区域进行图像识别。

上述实施例中，通过肤色检测获取第一视角的用户视线范围内的手部特征区域，在被检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别,在手指尖对目标物体的外缘进行圈划标定的时间区间内，记录手指尖的特征点的帧间位移，将帧间位移形成的圈划轨迹封闭连接成一个全周长几何形，然后将上述全周长几何形在上述用户的视线方向与目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别，从而可以实现用户在对目标物体进行图像识别的过程中，只需伸出手指，用手指尖对着目标物体的外缘进行圈划，即可快速获得对目标物体的标定和图像分割，进而可以作为对目标物体进行图像识别的识别输入，操作简单，用户体验度高，并且适用性较高。

图2为本发明图像识别方法另一个实施例的示意图，如图2所示，本实施例中，带有摄像头的智能设备接收到用户通过语音、或触摸屏或者动态传感器输入的图像识别请求之后，开启上述智能设备上的摄像头，通过肤色检测获取第一视角的用户视线范围内的手部特征区域，并对上述手部特征区域进行实时捕捉和追踪，然后通过语音等交互方式引导用户将手指尖特征点进行识别和捕捉，然后引导用户完成对目标物品进行圈划标定这个手势动作，在上述手指尖对目标物体的外缘进行圈划标定的时间区间内，跟踪手指尖圈划的路径，记录上述手指尖的特征点的帧间位移，将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形，将上述全周长几何形在上述用户的视线方向与上述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为上述目标物体的识别区域进行图像识别，从而在自然的圈划标定行为过程中进行图像分割进而识别，识别之后通过上述智能设备的声音音频输出通道或者屏幕图像输出通道将识别结果输出给用户，完成对于目标物体的识别过程。本实施例中的目标物体通常是离开用户有一定距离的远处物体或者是用户不能够触及的物体，又或是大型物体或无法移动的固定物体，当然本发明实施例并不仅限于此，本发明对目标物体的具体形态不作限定。

本发明中，上述带有摄像头的智能设备可以为带有摄像头的智能移动终端，或者带有摄像头的头戴式穿戴设备，例如：谷歌眼镜(Google Glass)、百度智能眼镜(BaiduEye)等，或者带有摄像头的智能手表，或者带有摄像头视觉输入的机器人，本发明对此不作限定。

图3为本发明图像识别装置一个实施例的结构示意图，本实施例中的图像识别装置可以实现本发明图1所示实施例的流程，如图3所示，该图像识别装置可以包括：获取模块31、跟踪模块32、记录模块33和投影模块34；

其中，获取模块31，用于通过肤色检测获取第一视角的用户视线范围内的手部特征区域。

跟踪模块32，用于对获取模块31获取的手部特征区域进行实时捕捉和追踪。

获取模块31，还用于在被跟踪模块32检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别，获得手指尖的特征和位置信息。

跟踪模块32，还用于对上述手指尖的特征和位置信息进行实时捕捉和追踪。

记录模块33，用于在上述手指尖对目标物体的外缘进行圈划标定的时间区间内，记录上述手指尖的特征点的帧间位移，将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形；其中，记录模块33用于将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形可以为：记录模块33，具体用于通过闭合曲线优化算法将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形。

投影模块34，用于将上述全周长几何形在上述用户的视线方向与上述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为上述目标物体的识别区域进行图像识别。

本实施例中，上述图像识别装置可以为带有摄像头的智能设备，或者带有摄像头的智能设备的一部分，其中，获取模块31、跟踪模块32和/或记录模块33的部分或全部功能可以通过上述智能设备的摄像头实现。

上述带有摄像头的智能设备可以为带有摄像头的智能移动终端，或者带有摄像头的头戴式穿戴设备，例如：谷歌眼镜(Google Glass)、百度智能眼镜(BaiduEye)等，或者带有摄像头的智能手表，或者带有摄像头视觉输入的机器人，本实施例对此不作限定。

上述图像识别装置中，获取模块31通过肤色检测获取第一视角的用户视线范围内的手部特征区域，在被跟踪模块32检测和捕捉到的手部特征区域中，获取模块31通过对伸出手指的手部形态特征进行模式识别,在手指尖对目标物体的外缘进行圈划标定的时间区间内，记录模块33记录手指尖的特征点的帧间位移，将帧间位移形成的圈划轨迹封闭连接成一个全周长几何形，然后投影模块34将上述全周长几何形在上述用户的视线方向与目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别，从而可以实现用户在对目标物体进行图像识别的过程中，只需伸出手指，用手指尖对着目标物体的外缘进行圈划，即可快速获得对目标物体的标定和图像分割，进而可以作为对目标物体进行图像识别的识别输入，操作简单，用户体验度高，并且适用性较高。

图4为本发明图像识别装置另一个实施例的结构示意图，与图3所示的装置相比，不同之处在于，图4所示的图像识别装置还可以包括：

接收模块35，用于接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发通过肤色检测获取第一视角的用户视线范围内的手部特征区域的操作。

也就是说，本实施例中，接收模块35接收到用户通过语音、或触摸屏或者动态传感器输入的图像识别请求之后，开启摄像头，获取模块31通过肤色检测获取第一视角的用户视线范围内的手部特征区域，跟踪模块32对上述手部特征区域进行实时捕捉和追踪，然后通过语音等交互方式引导用户将手指尖特征点进行识别和捕捉，然后引导用户完成对目标物品进行圈划标定这个手势动作，在上述手指尖对目标物体的外缘进行圈划标定的时间区间内，跟踪模块32跟踪手指尖圈划的路径，记录模块33记录上述手指尖的特征点的帧间位移，将上述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形，投影模块34将上述全周长几何形在上述用户的视线方向与上述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为上述目标物体的识别区域进行图像识别，从而在自然的圈划标定行为过程中进行图像分割进而识别，识别之后通过图像识别装置的声音音频输出通道或者屏幕图像输出通道将识别结果输出给用户，完成对于目标物体的识别过程。

上述图像识别装置可以实现用户在对目标物体进行图像识别的过程中，只需伸出手指，用手指尖对着目标物体的外缘进行圈划，即可快速获得对目标物体的标定和图像分割，进而可以作为对目标物体进行图像识别的识别输入，操作简单，用户体验度高，并且适用性较高。

图像识别是人工智能方向最重要的突破，而且具有相当广泛且有价值的使用场景，是今后搜索领域的重中之重，本发明采用全新的人机交互方式，自然的用户界面接口，比现有的先拍照再对目标物体进行圈划涂抹的图像识别方式更自然更便捷。对于智能穿戴设备上的图像识别功能，自然的交互方式显得尤为重要，本发明可以实现用户对眼前的物品“直接隔空圈划标定即可搜索获得结果”，本发明所实现的交互方式和用户体验是一种相当大的区别于其他同类或相似类别产品的重要特性。

本发明提供的方法是各种可以进行第一视角做视觉图像信息捕捉和处理的一切智能产品非常有可能会涉及并采用的方法，本发明提供的方法是从底层算法到表象人机交互方式都有可能会复制并立即采用到产品中的一个特性和技术支持，是作为穿戴式智能视觉产品进行手势识别的一个基本技术支持。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像识别方法，其特征在于，包括：

通过肤色检测获取第一视角的用户视线范围内的手部特征区域，并对所述手部特征区域进行实时捕捉和追踪；

在被检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别，获得手指尖的特征和位置信息，并对所述手指尖的特征和位置信息进行实时捕捉和追踪；

在所述手指尖对目标物体的外缘进行圈划标定的时间区间内，记录所述手指尖的特征点的帧间位移，将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形；

将所述全周长几何形在所述用户的视线方向与所述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别。

2.根据权利要求1所述的方法，其特征在于，所述将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形包括：

通过闭合曲线优化算法将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形。

3.根据权利要求1所述的方法，其特征在于，所述通过肤色检测获取第一视角的用户视线范围内的手部特征区域之前，还包括：

接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发通过肤色检测获取第一视角的用户视线范围内的手部特征区域的操作。

4.一种图像识别装置，其特征在于，包括：

获取模块，用于通过肤色检测获取第一视角的用户视线范围内的手部特征区域；

跟踪模块，用于对所述获取模块获取的手部特征区域进行实时捕捉和追踪；

所述获取模块，还用于在被所述跟踪模块检测和捕捉到的手部特征区域中，通过对伸出手指的手部形态特征进行模式识别，获得手指尖的特征和位置信息；

所述跟踪模块，还用于对所述手指尖的特征和位置信息进行实时捕捉和追踪；

记录模块，用于在所述手指尖对目标物体的外缘进行圈划标定的时间区间内，记录所述手指尖的特征点的帧间位移，将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形；

投影模块，用于将所述全周长几何形在所述用户的视线方向与所述目标物体所在的相垂直平面上进行投影，将投影获得的区域作为所述目标物体的识别区域进行图像识别。

5.根据权利要求4所述的装置，其特征在于，所述记录模块用于将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形包括：

所述记录模块，具体用于通过闭合曲线优化算法将所述帧间位移形成的圈划轨迹封闭连接成一个全周长几何形。

6.根据权利要求4所述的装置，其特征在于，还包括：

接收模块，用于接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发通过肤色检测获取第一视角的用户视线范围内的手部特征区域的操作。