CN105205454A

CN105205454A - 自动捕捉目标物的系统和方法

Info

Publication number: CN105205454A
Application number: CN201510537481.4A
Authority: CN
Inventors: 刘国华
Original assignee: SHENZHEN GUOHUA IDENTIFICATION TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: SHENZHEN GUOHUA IDENTIFICATION TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2015-12-30
Also published as: WO2017032187A1; EP3333759A1; JP2018534649A; US20190026545A1; EP3333759A4

Abstract

本发明涉及一种自动捕捉目标物的系统和方法，所述系统包括：图像采集模块，用于采集包含有用户手势和目标物的图像；手势识别模块，用于识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指向物体的手势；图像识别模块，用于根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果；交互模块，用于根据所述图像识别结果与用户进行交互。本发明可以提高识别准确度和交互性能。

Description

自动捕捉目标物的系统和方法

技术领域

本发明涉及计算机识别技术，特别是涉及一种自动捕捉目标物的系统和方法。

背景技术

人工智能(ArtificialIntelligence)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。随着计算机科学的发展，越来越多的智能产品开始问世。

然而，现有的智能产品还局限于对简单的图像、语音进行识别，当需要对多个目标物中的某一个或对一个目标物中的某一个部位进行识别时，识别的准确率会大大地降低，也影响了智能产品与用户的交互性能。比如，在人机交互时，人问智能产品“这是什么？”、“看这里”，智能产品不理解“这”、“这里”是什么意思，即不能准备捕捉“这”所指代的目标物。

发明内容

基于此，有必要提供一种可以提高识别准确度和交互性能的自动捕捉目标物的系统和方法。

一种自动捕捉目标物的系统，包括：

图像采集模块，用于采集包含有用户手势和目标物的图像；

手势识别模块，用于识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指向物体的手势；

图像识别模块，用于根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果；

交互模块，用于根据所述图像识别结果与用户进行交互。

在其中一个实施例中，所述图像识别模块包括：

目标物捕捉单元，用于根据所述手势识别结果确定目标物的位置；

图像处理单元，用于提取目标物的图像特征；

图像识别单元，用于将目标物的图像特征与预存的模版特征进行比较以获取目标物信息；

结果输出单元，用于输出所述目标物信息作为图像识别结果。

在其中一个实施例中，所述目标物为单独个体或为单独个体中的一个部分。

在其中一个实施例中，还包括：

语音采集模块，用于采集用户语音；

语音识别模块，用于识别用户的语音并输出语音识别结果；

所述交互模块还用于根据所述图像识别结果和所述语音识别结果与用户进行交互。

在其中一个实施例中，所述交互模块包括显示单元和/或语音播放单元；其中，

所述显示单元用于显示所述图像识别结果；

所述语音播放单元用于播放所述图像识别结果。

一种自动捕捉目标物的方法，包括：

采集包含有用户手势和目标物的图像；

识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指向物体的手势；

根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果；

根据所述图像识别结果与用户进行交互。

在其中一个实施例中，所述根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果的步骤，包括：

根据所述手势识别结果确定目标物的位置；

提取目标物的图像特征；

将目标物的图像特征与预存的模版特征进行比较以获取目标物信息；

输出所述目标物信息作为图像识别结果。

在其中一个实施例中，还包括：

采集用户语音；

识别用户的语音并输出语音识别结果；

所述根据所述图像识别结果与用户进行交互的步骤具体为：

根据所述图像识别结果和所述语音识别结果与用户进行交互。

在其中一个实施例中，所述根据所述图像识别结果与用户进行交互的步骤包括显示所述图像识别结果的步骤和/或包括播放所述图像识别结果的步骤。

上述自动捕捉目标物的系统和方法，通过图像采集模块采集包含有用户手势和目标物的图像，手势识别模块识别用户手势并输出手势识别结果，图像识别模块根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果，交互模块根据所述图像识别结果与用户进行交互，这样即使需要对多个目标物中的一个或对一个目标物中的某一个部位进行识别，也可以根据用户的手势准确地捕捉到目标物，然后再对目标物进行识别并与用户进行交互，提高了识别的准确率和交互性能。

附图说明

图1为一实施例中自动捕捉目标物的系统的模块图；

图2为用户手势的示意图之一；

图3为用户手势的示意图之二；

图4为用户手势的示意图之三；

图5为另一实施例中自动捕捉目标物的系统模块图；

图6为一实施例中自动捕捉目标物的方法的流程图；

图7为另一实施例中自动捕捉目标物的方法的流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参照图1，为一实施例中自动捕捉目标物的系统的模块图。

该自动捕捉目标物的系统可应用于机器人、电视机等任意智能产品中，包括图像采集模块110、手势识别模块120、图像识别模块130以及交互模块140。其中，图像采集模块110用于采集包含有用户手势和目标物的图像。手势识别模块120用于识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指向物体的手势。图像识别模块130用于根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果。交互模块140用于根据所述图像识别结果与用户进行交互。

图像采集模块110为摄像头，用于采集包含有用户手势和目标物的图像信息。在一个实施例中，用户的手势可以是如图2所示的五指呈收拢状，也可以是图3所示的手指呈指向状。目标物为单独个体或为单独个体中的一个部分。这里的单独个体可以是任何物体(如苹果、杯子、书本等)，也可以是人，那么单独个体的一部分就是指杯子的杯盖、书本的封面、人的某个器官或部位等。

比如，用户需要识别一个苹果，那么只需要手握苹果或手指着苹果出现在摄像头可视的范围内即可，这时图像采集模块110便会采集到包含有用户手势和苹果的图像信息。

手势识别模块120用于识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指物体的手势。具体地，用户需要识别放置在不同位置的物体时，就会做出不同的手势。当用户在图像采集模块110的可视范围内做出相应手势时，手势识别模块120会输出一个手势识别结果。可以理解，手势识别结果还可以为其他手势，如双手抱物体等，这里不作严格限制。

在一个实施例中，如果用户做出如图2所示的手势，手势识别模块120将该手势与预设手势模版进行对比，输出手势识别结果为手拿物体的手势；如果用户做出如图3所示的手势，手势识别模块120将该手势与预设手势模版进行对比，输出手势识别结果为手指向物体的手势。

进一步地，用户还可以设置图3所示的手势为指向目标物的一个部分，设置图4所示的手势为指向目标物的整体。

其中，预设手势模版可以自定义设置。

图像识别模块130用于根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果。手势识别结果无论是手拿物体的手势还是手指向物体的手势，图像识别模块130都能根据手势识别结果确定目标物的位置。

在一个实施例中，图像识别模块130包括目标物捕捉单元、图像处理单元、图像识别单元以及结果输出单元。其中，所述目标物捕捉单元用于根据所述手势识别结果确定目标物的位置，所述图像处理单元用于提取目标物的图像特征，所述图像识别单元用于将目标物的图像特征与预存的模版特征进行比较以获取目标物信息，所述结果输出单元用于输出所述目标物信息作为图像识别结果。

比如，用户手拿一个苹果，手势识别结果为手拿物体的手势，那么所述目标物捕捉单元便会确定用户手中的苹果即是目标物，所述图像处理单元便会提取苹果的图像特征(如颜色特征及纹理特征等)，然后所述图像识别单元用于将目标物的图像特征与预存的模版特征进行比较，预存的模版特征可能包括各种水果的模版特征、各种学习用品的模版特征等等，经过比较就可以识别该目标物为苹果，从而获取到目标物信息并输出。

比如，用户手指着嘴巴，手势识别结果为手指物体的手势，那么所述目标物捕捉单元便会确定用户手指向的嘴巴即是目标物，所述图像处理单元便会将目标物的图像特征与预存的模版特征进行比较，经过比较就可以识别该目标物为人的嘴巴，从而获取到目标物信息并输出。

在一个实施例中，目标物信息包括目标物的中文名称、英文名称等。可以理解，目标物信息还可以包括目标物的一些典故或造句等。如上述例中，所述结果输出单元输出的图像识别结果为苹果(apple)，图像识别结果还可以包括苹果的典故如牛顿的万有引力，还可以包括apple的造句，如妈妈给了我一个苹果(Mumgavemeanapple)。

交互模块140用于根据所述图像识别结果与用户进行交互。在一个实施例中，交互模块140包括显示单元和/或语音播放单元。其中，所述显示单元用于显示所述图像识别结果，所述语音播放单元用于播放所述图像识别结果。即交互模块140可以以显示图像识别结果的方式与用户交互，也可以以播放图像识别结果的方式与用户交互，还可以同时显示和播放图像识别结果。

比如，图像识别模块130输出的图像识别结果为苹果(apple)，那么交互模块140就会显示苹果的图片、汉字及英语单词，还可以同时播放苹果的读音。

请参照图5，为另一实施例中自动捕捉目标物的系统的模块图。

该自动捕捉目标物的系统包括图像采集模块210、手势识别模块220、语音采集模块230、语音识别模块240、图像识别模块250及交互模块260。

图像采集模块210用于采集包含有用户手势和目标物的图像。具体地，图像采集模块210为摄像头，用于采集包含有用户手势和目标物的图像信息。在一个实施例中，用户的手势可以是如图2所示的五指呈收拢状，也可以是图3所示的手指呈指向状。目标物为单独个体或为单独个体中的一个部分。这里的单独个体可以是任何物体(如苹果、杯子、书本等)，也可以是人，那么单独个体的一部分就是指杯子的杯盖、书本的封面、人的器官等。

手势识别模块220用于识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指向物体的手势。具体地，用户需要识别放置在不同位置的物体时，就会做出不同的手势。当用户在图像采集模块210的可视范围内做出相应手势时，手势识别模块220会输出一个手势识别结果。

语音采集模块230用于采集用户语音。具体地，在一个实施例中，用户在启动图像采集模块210的同时会自动启动语音采集模块230，用户也可以在启动图像采集模块210后，通过一个手势来启动语音采集模块230。

语音识别模块240用于识别用户的语音并输出语音识别结果。具体地，用户输出的语音识别结果包括交互句型。比如，用户手拿一个苹果问智能产品“这是什么”，那么语音识别模块240输出来的语音识别结果会包含“这是XX”这个交互句型，如这是苹果。如果用户指着爸爸的鼻子问“这是爸爸的什么”，那么语音识别模块240输出来的语音识别结果会包含“这是爸爸的XX”这个交互句型，如这是爸爸的鼻子。

图像识别模块250用于根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果。

交互模块260用于根据所述图像识别结果和所述语音识别结果与用户进行交互。

比如，图像识别模块250输出的图像识别结果为杯子(cup)，语音识别模块240输出的语音识别结果包括“这是XX”的句型，那么交互模块260与用户交互时就会显示和/或播放“这是杯子”、“thisisacup”。这样非常有利于小孩子的学习。

请参考图6，为一实施例中自动捕捉目标物的方法的流程图。

该自动捕捉目标物的方法包括：

步骤S110：采集包含有用户手势和目标物的图像。

在一个实施例中，目标物为单独个体或为单独个体中的一个部分。这里的单独个体可以是任何物体(如苹果、杯子、书本等)，也可以是人，那么单独个体的一部分就是指杯子的杯盖、书本的封面、人的器官等。

步骤S120：识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指向物体的手势。

步骤S130：根据手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果。

步骤S140：根据图像识别结果与用户进行交互。

请参考图7，为另一实施例中自动捕捉目标物的方法的流程图。

该自动捕捉目标物的方法包括：

步骤S210：采集包含有用户手势和目标物的图像。

步骤S220：识别用户手势并输出手势识别结果，所述手势识别结果为手拿物体的手势或手指向物体的手势。

步骤S230：根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果。

步骤S240：采集用户语音。

步骤S250：识别用户的语音并输出语音识别结果。

在一个实施例中，步骤S240和步骤S250可以在步骤S210之前执行，也可以在步骤S210之后执行。

步骤S260：根据图像识别结果和语音识别结果与用户进行交互。

上述自动捕捉目标物的系统，通过图像采集模块采集包含有用户手势和目标物的图像，手势识别模块识别用户手势并输出手势识别结果，图像识别模块根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果，交互模块根据所述图像识别结果与用户进行交互，这样即使需要对多个目标物中的一个或对一个目标物中的某一个部位进行识别，也可以根据用户的手势准确地捕捉到目标物，然后再对目标物进行识别并与用户进行交互，提高了识别的准确率和交互性能。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种自动捕捉目标物的系统，其特征在于，包括：

图像采集模块，用于采集包含有用户手势和目标物的图像；

交互模块，用于根据所述图像识别结果与用户进行交互。

2.根据权利要求1所述的自动捕捉目标物的系统，其特征在于，所述图像识别模块包括：

图像处理单元，用于提取目标物的图像特征；

3.根据权利要求1所述的自动捕捉目标物的系统，其特征在于，所述目标物为单独个体或为单独个体中的一个部分。

4.根据权利要求1所述的自动捕捉目标物的系统，其特征在于，还包括：

语音采集模块，用于采集用户语音；

语音识别模块，用于识别用户的语音并输出语音识别结果；

5.根据权利要求1所述的自动捕捉目标物的系统，其特征在于，所述交互模块包括显示单元和/或语音播放单元；其中，

所述显示单元用于显示所述图像识别结果；

所述语音播放单元用于播放所述图像识别结果。

6.一种自动捕捉目标物的方法，其特征在于，包括：

采集包含有用户手势和目标物的图像；

根据所述图像识别结果与用户进行交互。

7.根据权利要求6所述的自动捕捉目标物的方法，其特征在于，所述根据所述手势识别结果确定目标物的位置、识别目标物，并输出图像识别结果的步骤，包括：

根据所述手势识别结果确定目标物的位置；

提取目标物的图像特征；

输出所述目标物信息作为图像识别结果。

8.根据权利要求6所述的自动捕捉目标物的方法，其特征在于，所述目标物为单独个体或为单独个体中的一个部分。

9.根据权利要求6所述的自动捕捉目标物的方法，其特征在于，还包括：

采集用户语音；

识别用户的语音并输出语音识别结果；

所述根据所述图像识别结果与用户进行交互的步骤具体为：

10.根据权利要求6所述的自动捕捉目标物的方法，其特征在于，所述根据所述图像识别结果与用户进行交互的步骤包括显示所述图像识别结果的步骤和/或包括播放所述图像识别结果的步骤。