CN111507246A

CN111507246A - 通过手势选定标记对象的方法、装置、系统及存储介质

Info

Publication number: CN111507246A
Application number: CN202010295903.2A
Authority: CN
Inventors: 蓝河; 周凯翔
Original assignee: Shanghai Mi Fang Electronics Ltd
Current assignee: Shanghai Mi Fang Electronics Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-07

Abstract

本发明公开了一种通过手势选定标记图像及影像对象的方法、装置、系统及存储介质。该方法通过头部摄像头采集用户手势以及所见的图像；对图像中的用户手势进行识别；如果用户手势为预定义的指示手势，头部可穿戴设备截取完整图像并通过算法纠正摄像头与人眼的视觉差，从而得出用户需标注物体的真实空间坐标以及内容，之后接收语音输入对图像进行文字标记，再之后再将带有标记的图像上传到图像数据存储系统中。从而解决了当使用头部可穿戴设备进行图像采集时，由于采集到的图像中存在多个物品而无法确定对哪个物品进行标记的问题。

Description

通过手势选定标记对象的方法、装置、系统及存储介质

技术领域

本发明涉及可穿戴设备领域，尤其涉及一种通过手势选定标记对象的方法、装置、系统及存储介质。

背景技术

近年来，随着人工智能科技以及深度学习算法的不断推进，图像识别技术也得到了突飞猛进的发展。现阶段图像识别技术主要分为人脸识别与物品识别，人脸识别主要运用在安全检查、身份核验与移动支付中；物品识别主要运用在商品流通过程中，特别是无人货架、智能零售柜等无人零售领域。无论是人脸识别还是物品识别，图像识别的准确率都至关重要。图像识别的准确率主要取决于：1)建立图像识别模型所使用的算法；2)用于训练该图像识别模型所使用的训练数据。其中，训练数据是否充分、典型、准确和可靠都会直接影响图像识别的结果。

然而随着图像识别特别是物品识别所应用的领域和场景越来越广、涉及到的物品分类也越来越细，现有的图像采集量和标记量已远远不能满足人们对各类图像识别训练数据的需求。为此，各大数据提供商和科研机构都开始尝试研发一些更为便捷的图像采集和标记方法。现在，比较常用的方法是通过注册用户使用利用移动设备随时随地拍摄物品、标记对象并进行上传到图像数据库中。但这一过程需要执行多个步骤，例如，拿起移动设备、拍摄图片、手工输入物品名称等。这些步骤使得标记过程较为繁琐，难以大面积推广。

相比于移动设备，可穿戴设备可直接佩戴在身上合适的部位，通过语音或触碰等更为自然的方式实现人机交互。如果可以使用可穿戴设备采集图像，并通过语音对话的方式标记对象，则可以实现更为便捷的图像采集和标记。但本发明人发现在利用可穿戴设备进行图像采集和标记时也存在一些问题，例如，可穿戴设备的摄像头往往无法精确聚焦到标记对象，特别是当多个物品摆放在一起或背景繁杂的时候，就会因为难以确定标记对象而无法进入下一环节。

发明内容

针对以上问题，本发明实施例创造性地提供了一种通过手势选定标记对象的方法、装置、系统及存储介质。

根据本发明实施例第一方面，一种通过手势选定标记对象的方法，该方法应用于头部可穿戴设备，包括：采集包含用户手势的第一图像；对第一图像中的用户手势进行识别以获取手势识别结果；检测手势识别结果是否为预定义的指示手势，若是，则从第一图像中获取手势所指区域的第一空间坐标，根据第一空间坐标确定目标图像，接收语音输入对目标图像进行标记以得到带有标记的图像。

根据本发明实施例一实施方式，其中，从第一图像中获取手势所指区域的第一空间坐标，包括：使用纠正摄像头与人眼视觉误差的算法从第一图像中获取手势所指区域的第一空间坐标。

根据本发明实施例一实施方式，其中，根据第一空间坐标确定目标图像，包括：采集不含有手势的图像得到第二图像；从第一图像或第二图像中择优截取由第一空间坐标确定的范围内的图像得到目标图像。

根据本发明实施例一实施方式，其中，在获取手势所指区域的目标图像之后，该方法还包括：对目标图像进行识别得到第一识别结果，第一识别结果包括识别到的对象以及对象对应的第二空间坐标；检测第一识别结果中是否存在一个以上的对象，若是，则获取与第一空间坐标最近的第二空间坐标，根据第二空间坐标对目标图像进行剪裁，并使用剪裁后的目标图像替换剪裁前的目标图像。

根据本发明实施例一实施方式，其中，接收语音输入对目标图像进行标记，包括：接收语音输入；检测语音输入是否是开始标记的指令，若是，则对目标图像进行标记，若否，则不对目标图像进行标记。

根据本发明实施例一实施方式，其中，在采集用户手势的图像之前，该方法还包括：检测头部可穿戴设备是否工作正常，若是，则继续下一步操作，若否，则提示用户设备故障。

根据本发明实施例一实施方式，其中，在对图像中的用户手势进行识别以获取手势识别结果之前，该方法还包括：设置预定义的指示手势；提示用户在指定区域重复做出预定义的指示手势并在用户每次做出预定义的指示手势时进行图像采集以生成训练数据；使用训练数据对手势识别模型进行训练。

根据本发明实施例一实施方式，其中，设置预定义的指示手势，包括：显示系统预置的指示手势并提示用户选择；接收用户选择并将用户所选择的指示手势设置为预定义的指示手势。

根据本发明实施例一实施方式，其中，设置预定义的指示手势，还包括：提示用户做出自定义的指示手势；对自定义的指示手势进行图像采集并将采集到的图像设置为预定义的指示手势。

根据本发明实施例一实施方式，其中，提示用户在指定区域重复做出预定义的指示手势，包括：提示用户在前方摄像头的图像采集范围内推荐的区域重复做出预定义的指示手势。

根据本发明实施例一实施方式，其中，在对图像中的用户手势进行识别以获取手势识别结果之后，该方法还包括：将手势识别结果反馈给用户并提示用户进行下一步操作。

根据本发明实施例一实施方式，其中，在接收语音输入对目标图像进行标记以得到带有标记的图像之后，该方法放还包括：将带有标记的图像发送到图像存储系统中。

根据本发明实施例第二方面，一种通过手势选定标记对象的装置，该装置设置于头部可穿戴设备，包括：图像采集模块，用于采集包含用户手势的第一图像；手势识别模块，用于对第一图像中的用户手势进行识别以获取手势识别结果；手势检测模块，用于检测手势识别结果是否为预定义的指示手势；第一空间坐标获取模块，用于从第一图像中获取手势所指区域的第一空间坐标；目标图像确定模块，用于根据第一空间坐标确定目标图像；图像标记模块，用于接收语音输入对目标图像进行标记以得到带有标记的图像。

根据本发明实施例一实施方式，其中，第一空间坐标获取模块具体用于使用纠正摄像头与人眼视觉误差的算法从第一图像中获取手势所指区域的第一空间坐标。

根据本发明实施例一实施方式，其中，目标图像确定模块包括：第二图像采集单元，用于采集不含有手势的图像得到第二图像；图像截取单元，用于从第一图像或第二图像中择优截取由第一空间坐标确定的范围内的图像得到目标图像。

根据本发明实施例一实施方式，其中，该装置还包括：图像识别模块，用于对目标图像进行识别得到第一识别结果，第一识别结果包括识别到的对象以及对象对应的第二空间坐标；识别结果检测模块，用于检测第一识别结果中是否存在一个以上的对象；第二空间坐标获取模块，用于获取与第一空间坐标最近的第二空间坐标；目标图像剪裁模块，用于根据第二空间坐标对目标图像进行剪裁，并使用剪裁后的目标图像替换剪裁前的目标图像。

根据本发明实施例一实施方式，其中图像标记模块包括：语音接收单元，用于接收语音输入；指令检测单元，用于检测语音输入是否是开始标记的指令；目标图像标记单元，用于对目标图像进行标记。

根据本发明实施例一实施方式，其中，该装置还包括：设备检测模块，用于检测头部可穿戴设备是否工作正常，若是，则继续下一步操作，若否，则提示用户设备故障。

根据本发明实施例一实施方式，其中，该装置还包括：指示手势设置模块，用于设置预定义的指示手势；训练数据生成模块，用于提示用户在指定区域重复做出预定义的指示手势并在用户每次做出预定义的指示手势时进行图像采集以生成训练数据；模型训练模块，用于使用训练数据对手势识别模型进行训练。

根据本发明实施例一实施方式，其中，指示手势设置模块包括：显示单元，用于显示系统预置的指示手势并提示用户选择；指示手势设置单元，用于接收用户选择并将用户所选择的指示手势设置为预定义的指示手势。

根据本发明实施例一实施方式，其中，指示手势设置模块还包括：用户提示单元，用于提示用户做出自定义的指示手势；指示手势设置单元还用于对自定义的指示手势进行图像采集并将采集到的图像设置为预定义的指示手势。

根据本发明实施例一实施方式，其中，训练数据生成模块的用户提示单元具体用于提示用户在前方摄像头的图像采集范围内推荐的区域重复做出预定义的指示手势。

根据本发明实施例一实施方式，其中，该装置还包括反馈模块，用于将手势识别结果反馈给用户并提示用户进行下一步操作。

根据本发明实施例一实施方式，其中，该装置还包括：发送模块，用于将带有标记的图像发送到图像存储系统中。

根据本发明实施例第三方面，提供一种通过手势选定标记对象的系统，系统包括：头部可穿戴设备，用于执行上述通过手势选定标记对象的方法以选定标记对象并发送带有标记的图像；图像存储系统，用于接收并存储头部可穿戴设备发送的带有标记的图像。

根据本发明实施例第四方面，提供一种计算机存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项通过手势选定标记对象的方法。

本发明公开了一种通过手势选定标记对象的方法、装置、系统及存储介质。该方法通过头部可穿戴设备采集用户手势的图像；对图像中的用户手势进行识别；如果用户手势为预定义的指示手势，头部可穿戴设备进一步对用户手势所选定的标记对象进行图像采集，并接收语音输入对图像进行标记，之后再将带有标记的图像上传到图像数据存储系统中。从而解决了当使用头部可穿戴设备进行图像采集时，由于采集到的图像中存在多个物品而无法确定对哪个物品进行标记的问题。此外，由于图像采集模块是设置于头部可穿戴设备上的，当用户将该头部可穿戴设备佩戴于头部时，就可以跟随用户自由移动，实时采集各个位置的物品图像，且用户可以通过直接说出物品的名称对物品进行标记而无需手动输入，从而使整个图像采集和标记的过程更为简单和便捷。

需要理解的是，本发明的教导并不需要实现上面的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1为本发明实施例通过手势选定标记对象的方法一应用场景示意图；

图2为本发明实施例指示手势之一示意图；

图3为本发明实施例通过手势选定标记对象的方法的实现流程示意图；

图4为本发明实施例指示手势之二示意图；

图5为本发明实施例指示手势之二示意图；

图6为本发明实施例通过手势选定标记对象的装置的组成结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

下面结合图1介绍本发明实施例通过手势选定标记对象的方法的一应用场景。在这一场景中，用户10佩戴头部可穿戴设备20进行实地的物品图像采集和标记。该头部可穿戴设备20主要包括：图像采集模块201，用于采集用户10的指示手势和标记对象的图像；主控模块202，用于控制流程、数据处理和轻量级“机器学习”的计算工作等；通信模块203，用于通过无线网络建立通信连接，发送和接收数据；反馈模块204，用于对用户进行语音提示，接收用户语音输入，反馈操作结果等。头部可穿戴设备20在开启时会检测各个部件是否已经连接并能够正常工作。当检测完毕且一切正常后，该头部设备20可通过反馈模块204给出用户提示语音，例如，“设备已完成启动，各个模块工作正常，可进行图像采集。”此时，用户10就可以做出指示手势选定要标记的物品。通常，建议用户在前方摄像头的图像采集范围内的位置，比如在前方摄像头前30cm到60cm之间的位置，做出预定义的指示手势。该手势是预定义的，可以使用手势识别模型进行识别的一个手势。假设该手势是如图2所示的、由双手的拇指和食指组合而成的一个框形手势。用户10只需将该框形手势框住要标记的物品即可，假设用户此次框住的是一个苹果。此时，头部可穿戴设备20的主控模块202会对图像采集模块201所采集到的框形手势进行识别，在确定该手势为预定义的指示手势后通过反馈模块204对用户10进行提示，例如“已确定目标，请说出物品名称”。然后，用户就可以放下双手，并说出“苹果”，图像采集模块201就会采集用户框形手势附近的图像，并将该图像标记为“苹果”，然后通过通信模块203以TCP/IP协议数据传输的方式，将标记过的图像发送给图像存储系统30。图像存储系统30部署于云端，主要用于接收和存储各个用户所发送的、标记过的图像。如此，用户10就通过本发明实施例通过手势选定标记对象的方法完成了一次物品的图像采集和标记。

需要说明的是，以上应用场景仅为本发明实施例的某一应用示例，并不限定本发明实施例只能应用于以上场景。

图3示出了本发明实施例通过手势选定标记对象的方法的实现流程。参考图3，该方法应用于头部可穿戴设备，包括：操作310，采集包含用户手势的第一图像；操作320，对第一图像中的用户手势进行识别以获取手势识别结果；操作330，检测手势识别结果是否为预定义的指示手势，若是，则从第一图像中获取手势所指区域的第一空间坐标，根据第一空间坐标确定目标图像，接收语音输入对目标图像进行标记以得到带有标记的图像。

在操作310中，采集包含用户手势的第一图像是通过头部可穿戴设备的图像采集模块来完成的。这里的头部可穿戴设备是能够佩戴在头部的可穿戴设备，例如智能头盔，智能头箍，智能帽子等。而头部可穿戴设备的图像采集模块通常是佩戴后可居中固定在用户前额上方的一枚或多枚摄像头及数据线路。为了更好地采集到用户的手势图片，通常会提示用户将手势放在前方摄像头的图像采集范围内的位置，比如在前方摄像头前30cm到60cm之间的位置，做出预定义的指示手势。

在操作320中，对图像中的用户手势进行识别主要是通过手势识别模型来完成的，而该手势识别模型通常是基于神经网络模型建立的，且已经过训练能够对用户的指示手势进行识别。手势识别结果可分为两类，一类是与预定义的指示手势近似度高，可判定为预定义的指示手势，而另一类则与预定义的指示手势近似度低，可判定为不是预定义的指示手势。手势识别过程是个轻量级的机器学习过程，可以由头部可穿戴设备的主控模块来完成，也可以由部署于云端、计算能力更强、图像数据更丰富的图像识别服务来实现。

在操作330中，若手势识别结果为预定义的指示手势，则会触发物品图像采集的操作，头部可穿戴设备的图像采集模块会进一步对用户手势所选定的标记对象进行图像采集。这一采集过程主要是通过从包含手势的第一图像中，获取手势所指区域的第一空间坐标，并根据这一空间坐标重新确定目标图像。对于可以形成密闭图形的手势，比如图2所示的框型手势，第一空间坐标就是该框型手势的“中心点”的坐标，相应地，目标图像就是以该“中心点”为中心手势框定范围内的图像；对于无法形成密闭图形的手势，如图5所示的由单手食指指向物品的手势，第一空间坐标就是食指最前端的点的坐标，相应地，目标图像就是以该“中心点”为中心某个范围内的图像。目标图像中应该包含要对其进行标记的标记对象。这里，对物品进行标记主要采取接收语音输入的方式，也就是用户直接说出物品的名称，由系统将语音转化成文本对图像进行标记。采取这一方式，比起手动输入的方式，对用户来说更为便捷，能够带给用户更好的使用体验。将语音转换成文字的技术目前来说都比较成熟了，可以使用第三方提供的转化工具，也可以通过自己开发的工具来实现。

进一步地，若手势识别结果不是预定义的指示手势，头部可穿戴设备可进一步分析没有识别的原因，例如：如果是因为用户手势不完整，则提示用户修正手势摆放的位置；如果是因为用户手势与预定义的指示手势相差较远，则提示用户重新做出指示手势；如果是因为光线太暗，则提示用户开启照明装置等等。

通常在头部可穿戴设备上前面的摄像头是略高于人眼的，由此摄像头采集到的图像与人眼观察到的图像会存在一定视觉误差。此时，可以通过使用纠正摄像头与人眼视觉误差的算法对第一图像进行修正，从而能更精确的得到手势所指区域的第一空间坐标。

由于包含手势的第一图像中的手势对手势所指示的标记对象也会产生干扰，在本实施方式中，会在用户放下手势之后，对不含有手势的物品进行二次图像采集得到第二图像。之后，作为源图，然后再从源图(第一图像或第二图像)中截取第一空间坐标确定的范围内图像作为目标图像。在对第一图像和第二图像进行选择，判断哪个图像的第一空间坐标确定的范围内图像更为清晰、干扰因素较少时，可采用任何适用的清晰度评价算法或工具，比如Brenner梯度函数、Tenengrad梯度函数、SMD(灰度方差)函数和方差函数等等。

有时当物品堆放过为密集，即使已经通过手势缩小了图像采集的范围，仍然会包含多个物品。为此，在本实施方式中，会利用图像识别进一步对目标图像进行处理，缩小图像采集的范围，使其尽可能只包含标记对象。此处使用目标图像进行图像识别返回的识别结果既要包含识别识别到的对象，还要包含对象对应的第二空间坐标。这里的第二空间坐标主要是用来与第一空间坐标进行比对，以将离用户手势确定的第一空间坐标最近的对象确定为标记对象。

用户有时会不经意做出类似预定义指示的手势，而不是想要真的标记图像。在本实施方式中，在对标记对象进行标记之前，要求用户给出标记指令，例如，“请开始标记。”这样就可以再次确定用户的真实意图，以免进行不必要的图像采集和标记过程。

在本实施方式中，头部可穿戴设备在开启时会检测各个模块是否已经连接并工作正常。这里，可以使用任何适用的检测方法，主要确保头部可穿戴设备的图像采集模块、通信模块和反馈模块可以正常使用。如果有某个模块出现问题，则需要通过反馈模块告知用户。

在识别用户手势之前，可以由用户来选择和定义用户习惯使用的手势，而为了更易于识别出用户预定义的指示手势，还可以在对识别手势模型进行训练时，加入用户的手势图像作为训练数据。为了提高训练效果和识别准确度，可以提示用户在光线良好、对比度高的场景下(比如面对白色墙壁)且距离摄像头某个距离的位置，重复做出相同的动作，以便让机器学习程序正确识别出用户手势。

在本实施方式中，设置预定义的指示手势是由用户从系统预置的指示手势中选取的。系统预置的指示手势一般都是经过充分学习和训练的手势。在针对这些系统预置的指示手势对手势识别模型进行训练时，除了会将用户重复做出的手势图像作为训练数据之外，还可从图像库中存储的、其他用户的手势图像进行训练。而且系统预置的指示手势往往是经过实验应用效果较好的手势，如图2所示的、由双手大拇指和食指组合的框形手势就非常自然地形成一个规整的长方块并很容易找到该手势的中心点。因此，系统预置的指示手势通常是经过优选的指示手势，识别准确率更高。

根据本发明实施例一实施方式，其中，设置预定义的指示手势，包括：提示用户做出自定义的指示手势；对自定义的指示手势进行图像采集并将采集到的图像设置为预定义的指示手势。

在这一实施方式中，除了给出用户一些可供选择的系统预置的手势之外，还允许用户自定义一些指示手势其他造型的“双手”或“单手”手势，例如图4和图5所示的指示手势。图4所示的指示手势，由双手的食指可以作为一个长方形的两个对边，这个长方形的中心点的坐标就可以作为确定标记对象的第一空间坐标。图5示出了另一个符合条件的指示手势，由单手竖起的食指来进行指示，该食指最前面的点的坐标就可以作为确定标记对象的第一空间坐标。对于用户自定义的指示手势，在训练时主要使用头部可穿戴设备对用户做出的指示手势进行图像采集，然后将采集到的手势图像设置为预定义的指示手势。

通常，每个摄像头都有一个最佳采集范围，在这一范围内做出预定义的指示手势，可以采集到更为清晰的图像。此外，重复做出预定义的指示手势，可以采集更多数据用来进行手势识别模型的训练。因此，在本实施方式中，会将这一最佳采集范围告知用户，并提示用户在这一推荐的区域内做出预定义的指示手势。例如，根据本发明人的实验研究，发现用户在距离摄像头前方30cm至60cm的位置重复做出预定义的指示手势，能采集到更为理想的手势图像，用这样的手势图像进行手势识别模型的训练，将产生更易于识别且识别的准确率较高的有益效果。

在识别手势之后，将手势识别结果通过反馈模块，比如扬声器、耳机等告知用户，可让用户知道当前的处理进度，可以为用户带来更好的使用体验。

对物品进行图像采集和标记的主要目的之一是可以将其收集起来，并进行一定的加工处理后可以用作图像识别模型的训练数据，所以头部可穿戴设备需要将标记过的图像发送给云端的图像存储系统以便进行后续的加工处理。

根据本发明实施例第二方面，一种通过手势选定标记对象的装置，该装置设置于头部可穿戴设备，如图6所示，该装置60包括：图像采集模块601，用于采集包含用户手势的第一图像；手势识别模块602，用于对第一图像中的用户手势进行识别以获取手势识别结果；手势检测模块603，用于检测手势识别结果是否为预定义的指示手势；第一空间坐标获取模块604，用于从第一图像中获取手势所指区域的第一空间坐标；目标图像确定模块605，用于根据第一空间坐标确定目标图像；图像标记模块606，用于接收语音输入对目标图像进行标记以得到带有标记的图像。

根据本发明实施例一实施方式，其中，第一空间坐标获取模块604具体用于使用纠正摄像头与人眼视觉误差的算法从第一图像中获取手势所指区域的第一空间坐标。

根据本发明实施例一实施方式，其中，目标图像确定模块605包括：第二图像采集单元，用于采集不含有手势的图像得到第二图像；图像截取单元，用于从第一图像或第二图像中择优截取由第一空间坐标确定的范围内的图像得到目标图像。

根据本发明实施例一实施方式，其中，该装置60还包括：图像识别模块，用于对目标图像进行识别得到第一识别结果，第一识别结果包括识别到的对象以及对象对应的第二空间坐标；识别结果检测模块，用于检测第一识别结果中是否存在一个以上的对象；第二空间坐标获取模块，用于获取与第一空间坐标最近的第二空间坐标；目标图像剪裁模块，用于根据第二空间坐标对目标图像进行剪裁，并使用剪裁后的目标图像替换剪裁前的目标图像。

根据本发明实施例一实施方式，其中图像标记模块606包括：语音接收单元，用于接收语音输入；指令检测单元，用于检测语音输入是否是开始标记的指令；目标图像标记单元，用于对目标图像进行标记。

根据本发明实施例一实施方式，其中，该装置60还包括：设备检测模块，用于检测头部可穿戴设备是否工作正常，若是，则继续下一步操作，若否，则提示用户设备故障。

根据本发明实施例一实施方式，其中，该装置60还包括：指示手势设置模块，用于设置预定义的指示手势；训练数据生成模块，用于提示用户在指定区域重复做出预定义的指示手势并在用户每次做出预定义的指示手势时进行图像采集以生成训练数据；模型训练模块，用于使用训练数据对手势识别模型进行训练。

根据本发明实施例一实施方式，其中，该装置60还包括反馈模块，用于将手势识别结果反馈给用户并提示用户进行下一步操作。

根据本发明实施例一实施方式，其中，该装置60还包括：发送模块，用于将带有标记的图像发送到图像存储系统中。

这里需要指出的是：以上针对通过手势选定标记对象的装置实施例的描述、以上针对通过手势选定标记对象的的系统实施例的描述和以上针对计算机存储介质实施例的描述，与前述方法实施例的描述是类似的，具有同前述方法实施例相似的有益效果，因此不做赘述。对于本发明对通过手势选定标记对象的装置实施例的描述、对通过手势选定标记对象的系统实施例的描述和对计算机存储介质实施例的描述尚未披露的技术细节，请参照本发明前述方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储介质、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种通过手势选定标记对象的方法，其特征在于，所述方法应用于头部可穿戴设备，包括：

采集包含用户手势的第一图像；

对所述第一图像中的用户手势进行识别以获取手势识别结果；

检测所述手势识别结果是否为预定义的指示手势，若是，则从所述第一图像中获取手势所指区域的第一空间坐标，根据所述第一空间坐标确定目标图像，接收语音输入对所述目标图像进行标记以得到带有标记的图像。

2.根据权利要求1所述的方法，其特征在于，所述从所述第一图像中获取手势所指区域的第一空间坐标，包括：

使用纠正摄像头与人眼视觉误差的算法从所述第一图像中获取手势所指区域的第一空间坐标。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一空间坐标确定目标图像，包括：

采集不含有手势的图像得到第二图像；

从所述第一图像或第二图像中择优截取由所述第一空间坐标确定的范围内的图像得到目标图像。

4.根据权利要求1所述的方法，其特征在于，在所述获取手势所指区域的目标图像之后，所述方法还包括：

对所述目标图像进行识别得到第一识别结果，所述第一识别结果包括识别到的对象以及所述对象对应的第二空间坐标；

检测所述第一识别结果中是否存在一个以上的对象，若是，则获取与所述第一空间坐标最近的第二空间坐标，根据所述第二空间坐标对所述目标图像进行剪裁，并使用所述剪裁后的目标图像替换剪裁前的目标图像。

5.根据权利要求1所述的方法，其特征在于，所述接收语音输入对所述目标图像进行标记，包括：

接收语音输入；

检测所述语音输入是否是开始标记的指令，若是，则对所述目标图像进行标记，若否，则不对所述目标图像进行标记。

6.根据权利要求1所述的方法，其特征在于，在所述采集包含用户手势的第一图像之前，所述方法还包括：

检测所述头部可穿戴设备是否工作正常，若是，则继续下一步操作，若否，则提示用户设备故障。

7.根据权利要求1所述的方法，其特征在于，在所述对所述第一图像中的用户手势进行识别以获取手势识别结果之前，所述方法还包括：

设置预定义的指示手势；

提示用户在指定区域重复做出所述预定义的指示手势并在用户每次做出所述预定义的指示手势时进行图像采集以生成训练数据；

使用所述训练数据对手势识别模型进行训练。

8.根据权利要求7所述的方法，其特征在于，所述设置预定义的指示手势，包括：

显示系统预置的指示手势并提示用户选择；

接收用户选择的结果并将用户所选择的指示手势设置为预定义的指示手势。

9.根据权利要求7所述的方法，其特征在于，所述设置预定义的指示手势，还包括：

提示用户做出自定义的指示手势；

对所述自定义的指示手势进行图像采集并将采集到的图像设置为预定义的指示手势。

10.根据权利要求7所述的方法，其特征在于，所述提示用户在指定区域重复做出所述预定义的指示手势，包括：

提示用户在前方摄像头的图像采集范围内推荐的区域重复做出所述预定义的指示手势。

11.根据权利要求1所述的方法，其特征在于，在所述对所述第一图像中的用户手势进行识别以获取手势识别结果之后，所述方法还包括：

将所述手势识别结果反馈给用户并提示用户进行下一步操作。

12.根据权利要求1所述的方法，其特征在于，在所述接收语音输入对所述目标图像进行标记以得到带有标记的图像之后，所述方法放还包括：

将所述带有标记的图像发送到图像存储系统中。

13.一种通过手势选定标记对象的装置，其特征在于，所述装置设置于头部可穿戴设备，所述装置包括：

图像采集模块，用于采集包含用户手势的第一图像；

手势识别模块，用于对所述第一图像中的用户手势进行识别以获取手势识别结果；

手势检测模块，用于检测所述手势识别结果是否为预定义的指示手势；

第一空间坐标获取模块，用于从所述第一图像中获取手势所指区域的第一空间坐标；

目标图像确定模块，用于根据所述第一空间坐标确定目标图像；

图像标记模块，用于接收语音输入对所述目标图像进行标记以得到带有标记的图像。

14.一种通过手势选定标记对象的系统，其特征在于，所述系统包括：

头部可穿戴设备，用于执行权利要求1所述的方法以选定标记对象并发送所述带有标记的图像；

图像存储系统，用于接收并存储所述头部可穿戴设备发送的所述带有标记的图像。

15.一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行如权利要求1至12任一项所述的通过手势选定标记对象的方法。