CN110543238A

CN110543238A - 基于人工智能的桌面交互方法

Info

Publication number: CN110543238A
Application number: CN201910728837.0A
Authority: CN
Inventors: 张哲�
Original assignee: Shanghai Paper Juechi Intelligent Technology Co Ltd
Current assignee: Shanghai Paper Juechi Intelligent Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-12-06

Abstract

本申请公开了一种基于人工智能的桌面交互方法，包括：当使用者的手势正确时，检测手的位置；匹配所述手的位置图像与预设图像；获取匹配成功的所述预设图像对应的第一文本信息；识别手指关键点的周围第二文本信息；及匹配所述第一文本信息与所述第二文本信息，获得第三文本信息，并返回将所述第三文本信息对应的服务。本申请提出一种利用人工智能技术来识别动作和手势的新的交互方式，并将这种交互方式应用到桌面学习和娱乐场景。能够自动识别使用者的手势并根据手势触发相应的应用程序。

Description

基于人工智能的桌面交互方法

技术领域

本申请涉及人工智能领域，具体而言，涉及一种基于人工智能的桌面交互方法。

背景技术

现有的桌面交互方法中，不能自动识别使用者的手势，并且根据手势触发交互程序。

发明内容

根据本申请的一个方面，提供了一种基于人工智能的桌面交互方法，包括：

当使用者的手势正确时，检测手的位置；

匹配所述手的位置图像与预设图像；

获取匹配成功的所述预设图像对应的第一文本信息；

识别手指关键点的周围第二文本信息；及

匹配所述第一文本信息与所述第二文本信息，获得第三文本信息，并返回将所述第三文本信息对应的服务。

可选地，当使用者的手势正确时，检测手的位置之前还包括：

判断手是否完全至于桌面；及

当手完全至于桌面时，判断手势是否正确。

可选地，判断手是否完全至于桌面包括：

手机、平板或者其他摄像装置实时采集连续图像，将图像输入训练好的深度感知模型，深度感知模型可以判断手是否在桌面，当手完全置于桌面上时，返回结果1，并进入到下一步；当手未完全置于桌面上时，返回结果0，并重复判断手是否完全至于桌面。

可选地，判断手势是否正确包括：

当感所述深度知模型判断手处于桌面时，将当前帧的图像输入训练好的手势识别模型，手势识别模型可以判断该手势是否是正确操作手势，当图像中手势是正确手势时，返回结果1，并进入到下一步；当图像中手势是错误手势时，返回结果0，并重复判断手是否完全至于桌面。

可选地，检测手的位置包括：将当前帧的图像输入训练好的手检测和定位模型，该检测和定位模型能够识别手的位置和相应手关键点的位置。

可选地，匹配所述手的位置图像与预设图像包括：

检测到手的位置和相应关键点位置之后，提取当前帧图像的SIFT特征，将当前帧图像的SIFT特征与数据库中所有图像的特征进行匹配，并返回匹配图像的ID。

可选地，获取匹配成功的所述预设图像对应的第一文本信息包括：

根据所述ID值，从数据库中获取对应的文本信息，包括但不限于中英文句子、单词、题目。

可选地，识别手指关键点的周围第二文本信息包括：

根据手关键点的位置，截取一个图像区域，通过OCR识别图像区域中的文本信息。

可选地，匹配所述第一文本信息与所述第二文本信息，获得第三文本信息，并返回将所述第三文本信息对应的服务包括：

所述第二文本信息与所述第一文本信息进行匹配，得到匹配到的所述第三文本，根据匹配到的所述第三文本信息，如果是中英文单词或者句子，则将翻译后的结果朗读并且显示到屏幕上；如果是题目信息，则搜索解答过程并将其显示在屏幕上。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机设备。

根据本申请的计算机设备包括：存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

本申请提供的利用人工智能技术来识别动作和手势的新的交互方式，并将这种交互方式应用到桌面学习和娱乐场景。这种交互方式需要借助于外部设备完成，外部设备分为两种。第一种是，硬件立于桌面，顶部有一个单目摄像头斜向下照射，能够清晰地拍摄桌面的书本、手、文字、图片信息等。第二种是，利用手机或者平板立于桌面，在手机或者平板上方安放一个光学反射系统，该光学反射系统通过反射成像，使得手机或者平板的前置摄像头能够清晰地拍摄到桌面的书本、手、文字、图片信息等。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请一种实施例的基于人工智能的桌面交互方法的流程示意图；

图2是根据本申请一种实施例的深度感知模型的详细结构图；

图3是根据本申请一种实施例的手势判别模型的详细结构图；

图4是根据本申请一个实施例的手检测和关键点定位模型的详细结构图；

图5是根据本申请一个实施例的提取当前画面SIFT特征的流程图；以及

图6是根据本申请一个实施例的计算机设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本申请一实施例中，提供了一种基于人工智能的桌面交互方法，包括：

步骤S102：当使用者的手势正确时，检测手的位置；

步骤S104：匹配所述手的位置图像与预设图像；

步骤S106：获取匹配成功的所述预设图像对应的第一文本信息；

步骤S108：识别手指关键点的周围第二文本信息；及

步骤S110：匹配所述第一文本信息与所述第二文本信息，获得第三文本信息，并返回将所述第三文本信息对应的服务。

在本申请一实施例中，当使用者的手势正确时，检测手的位置之前还包括：

步骤S100：判断手是否完全至于桌面；及

步骤S101：当手完全至于桌面时，判断手势是否正确。

在本申请一实施例中，判断手是否完全至于桌面包括：手机、平板或者其他摄像装置实时采集连续图像，将图像输入训练好的深度感知模型，深度感知模型可以判断手是否在桌面，当手完全置于桌面上时，返回结果1，并进入到下一步；当手未完全置于桌面上时，返回结果0，并重复判断手是否完全至于桌面。

在本申请一实施例中，判断手势是否正确包括：当感所述深度知模型判断手处于桌面时，将当前帧的图像输入训练好的手势识别模型，手势识别模型可以判断该手势是否是正确操作手势，当图像中手势是正确手势时，返回结果1，并进入到下一步；当图像中手势是错误手势时，返回结果0，并重复判断手是否完全至于桌面。

在本申请一实施例中，检测手的位置包括：将当前帧的图像输入训练好的手检测和定位模型，该检测和定位模型能够识别手的位置和相应手关键点的位置。

在本申请一实施例中，匹配所述手的位置图像与预设图像包括：检测到手的位置和相应关键点位置之后，提取当前帧图像的SIFT特征，将当前帧图像的SIFT特征与数据库中所有图像的特征进行匹配，并返回匹配图像的ID。

在本申请一实施例中，获取匹配成功的所述预设图像对应的第一文本信息，第一文本信息为从数据库中获取对应的文本信息，包括：根据所述ID值，从数据库中获取对应的文本信息，包括但不限于中英文句子、单词、题目。

在本申请一实施例中，识别手指关键点的周围第二文本信息，第二文本信息手指关键点周围文本信息，包括：根据手关键点的位置，截取一个图像区域，通过OCR识别图像区域中的文本信息。

在本申请一实施例中，匹配所述第一文本信息与所述第二文本信息，获得第三文本信息，第三文本信息为匹配到的确切文本信息，并返回将所述第三文本信息对应的服务包括：

深度感知模型训练与推理。

图2描述了深度感知模型的一种实例的详细结构。该模型由3层卷积网络层和2层池化网络层以及1层全连接层组成。模型的输入是一个128x128x3的RGB彩色图像数据，输出层采用softmax，输出两个值，分别代表手完全置于桌面和手不完全置于桌面。该模型损失函数采用目标值和推理值的softmax cross entropy loss，优化算法采用Adam优化器，初始化学习率0.001，样本数量100万，训练经过100个周期收敛。

所述网络模型输入图像时128x128x3；第一层卷积网络层中，卷积核为5x5，通道数为32；第一层池化网络层步长为2，padding采用SAME模式；第二层卷积网络层，卷积核为5x5，通道数为64；第二层池化网络层步长为2，padding采用SAME模式；第三层网络卷积层，卷积核为3x3，通道数为96；最后一层全连接层，输出单元为2。

手势判别模型训练与推理

图3描述了手势判别模型的一种实例的详细结构。该模型由4层卷积网络层和3层池化网络层以及1层全连接层组成。模型的输入是一个96x96的灰度图像数据，输出层采用softmax，输出两个值，分别代表正确的手势和错误的手势。该模型损失函数采用目标值和推理值的softmax cross entropy loss，优化算法采用Adam优化器，初始化学习率0.001，样本数量40万，训练经过80个周期收敛。

所述网络模型输入图像时96x96；第一层卷积网络层中，卷积核为5x5，通道数为24；第一层池化网络层步长为2，padding采用SAME模式；第二层卷积网络层，卷积核为5x5，通道数为24；第二层池化网络层步长为2，padding采用SAME模式；第三层网络卷积层，卷积核为3x3，通道数为36；第三层池化网络层步长为2，padding采用SAME模式；第四层卷积网络层中，卷积核为3x3，通道数为36；最后一层全连接层，输出单元为2。

手检测和关键点定位模型训练与推理

图4描述了手检测和关键点定位模型的一种实例的详细结构。该模型借鉴了MaskRCNN模型架构，候选手目标框的位置以及相应的置信度，每个手目标框对应5个特征热力图，分别对应拇指、食指、中指、无名指和小指的位置。该模型损失函数包括三部分：第一部分是目标框的位置值的L1损失，第二部分是目标框是否为目标手势的softmax损失，第三部分是手关键点位置的L1损失。算法优化器采用RMS Prop，训练数据包括100万样本数据，迭代200个周期收敛。

当前书本页画面的匹配

图5描述了提取当前画面SIFT特征的过程。首先将图片缩小到100x100的灰度图。其次将缩略灰度图分成100个等分的区域，其中每个区域面积10x10大小。针对每个区域，提取一个长度为128维的向量，每张画面共有100个向量。数据库中存储了预先计算的100万张图片的向量矩阵。通过计算两个向量的cosine值计算两个向量的相似度。当相似度超过阈值0.8时，认为两个特征向量一致，否则认为两个特征向量不一致。依次将图片中所有特征向量与数据库中100万张图片对比，确定匹配度最高的ID。

根据匹配ID来获取当前画面的资源文件

根据ID值，可以从服务器数据库中获取当前页面的资源文件，包括当前画面的文本信息、音频信息、图片信息、公式、题目等。

根据手指位置识别周围区域文本信息

确定手指位置后，截图高度为50个像素，长度为1000个像素矩形区域。将区域图片输入谷歌开源OCR工具tesseract。结果获取区域图片中的各种语言的句子、词语、公式等。

搜索识别后的文本信息并返回相应的服务

将步骤F中识别后的文本信息与步骤E中获取的文本信息进行匹配搜索。当相似度超过设定的阈值时，返回并显示当前的资源文件。例如，如果匹配的是英文单词，则返回该英文单词的翻译和读音；如果匹配的是题目，则返回当前题目的解答过程等。

如图6所示，本申请还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

本申请提出一种利用人工智能技术来识别动作和手势的新的交互方式，并将这种交互方式应用到桌面学习和娱乐场景。这种交互方式需要借助于外部设备完成，外部设备分为两种。第一种是，硬件立于桌面，顶部有一个单目摄像头斜向下照射，能够清晰地拍摄桌面的书本、手、文字、图片信息等。第二种是，利用手机或者平板立于桌面，在手机或者平板上方安放一个光学反射系统，该光学反射系统通过反射成像，使得手机或者平板的前置摄像头能够清晰地拍摄到桌面的书本、手、文字、图片信息等。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的桌面交互方法，其特征在于，包括：

当使用者的手势正确时，检测手的位置；

匹配所述手的位置图像与预设图像；

获取匹配成功的所述预设图像对应的第一文本信息；

识别手指关键点的周围第二文本信息；及

2.根据权利要求1所述的基于人工智能的桌面交互方法，其特征在于，当使用者的手势正确时，检测手的位置之前还包括：

判断手是否完全至于桌面；及

当手完全至于桌面时，判断手势是否正确。

3.根据权利要求2所述的基于人工智能的桌面交互方法，其特征在于，判断手是否完全至于桌面包括：

4.根据权利要求3所述的基于人工智能的桌面交互方法，其特征在于，判断手势是否正确包括：

5.根据权利要求4所述的基于人工智能的桌面交互方法，其特征在于，检测手的位置包括：将当前帧的图像输入训练好的手检测和定位模型，该检测和定位模型能够识别手的位置和相应手关键点的位置。

6.根据权利要求5所述的基于人工智能的桌面交互方法，其特征在于，匹配所述手的位置图像与预设图像包括：

7.根据权利要求6所述的基于人工智能的桌面交互方法，其特征在于，获取匹配成功的所述预设图像对应的第一文本信息包括：

8.根据权利要求7所述的基于人工智能的桌面交互方法，其特征在于，识别手指关键点的周围第二文本信息包括：

9.根据权利要求8所述的基于人工智能的桌面交互方法，其特征在于，匹配所述第一文本信息与所述第二文本信息，获得第三文本信息，并返回将所述第三文本信息对应的服务包括：

10.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-9中任一项所述的方法。